연구진이 LLM 구성 요소 간의 회로를 학습하여 모델의 작동 원리를 밝히는 새로운 방법 CircuitLasso를 제안했어요. CircuitLasso는 기존 방법보다 훨씬 저렴한 비용으로 정확한 회로 구조를 복원하고, 인간이 이해하기 쉬운 의미론적 특징이 모델을 통해 어떻게 전달되는지 보여줘요. 학습된 회로의 통찰력을 활용하여 일반적인 영역에서 기존 방법과 유사한 성능을 달성하면서도 비용을 절감하는 데 성공했어요.