연구진은 GPT-2 Small 모델이 간접 목적어 식별 작업에서 실패할 때 활성화되는 희소 특징을 분석했어요. 300개의 프롬프트를 사용해 분석한 결과, 146개의 특징이 유의미한 차이를 보였고, 105개의 특징은 큰 효과를 나타냈어요.
실패의 가장 큰 원인 중 하나는 '암호화 키'와 관련된 17,491번 특징으로, 객체가 '키'일 때 실패율이 93.3%에 달했어요. 이는 다른 객체에 비해 매우 높은 실패율이에요.
연구진은 이 특징이 원인인지 확인하기 위해 세 가지 검증 과정을 거쳤지만, 특징 제거는 정확도를 회복시키지 못했고, 로지스틱 회귀 분석에서는 SAE 특징보다 예측력이 낮았어요.
이 연구의 주요 기여는 모델의 작동 방식을 이해하는 데 도움이 되는 감사 파이프라인이며, 관련 코드와 데이터셋을 공개하여 다른 연구자들이 활용할 수 있도록 지원해요.