연구진은 트랜스포머 언어 모델의 기능 분석을 위한 5단계 방법론을 제안하고 GPT-2 small 모델을 활용해 간접 목적어 식별(IOI) 작업을 수행했어요.
활성화 패치는 IOI 회로를 복구하고, 희소 자동 인코더는 이름별 선택적 기능을 찾아내며, 이 기능들은 약 15개만 제거해도 프롬프트의 98%에서 모델의 정확도를 유지했어요.
비용 기반 배포 평가는 1,000건의 쿼리당 8.96달러의 비용 절감 효과를 보여주며, 최적의 조합 전략은 비용 비율과 기본 정확도에 따라 달라져요.