연구진은 대규모 언어 모델이 장문 맥락에서 답변을 합성할 때, 관련 맥락을 문자 그대로 복사하는 대신 의미를 종합한다는 것을 확인했어요. 이를 위해 Logit-Contribution Scoring(LOCOS)이라는 새로운 방법을 제안하여, 답변 토큰의 unembedding 방향으로 출력-값 회로의 투영을 측정하는 방식으로 비문자열 검색 헤드를 식별해요.
Qwen3, Gemma-3, OLMo-3.1 모델군에서 LOCOS를 사용한 실험 결과, NoLiMa 비문자열 검색 벤치마크에서 기존 방식보다 적은 헤드 수로 ROUGE-L 점수가 크게 감소했어요. 특히 Qwen3-8B 모델에서 50개의 헤드를 제거했을 때 ROUGE-L 점수가 0.401에서 0.000으로 급락했어요.
LOCOS로 선택된 헤드들은 검색에 특화된 것으로 나타났으며, 파라메트릭 재현 및 산술 추론은 동일한 제거 과정에서도 기본 성능을 유지했어요. 또한 MuSiQue와 BABI-Long 벤치마크 점수도 크게 감소하는 것을 확인했어요.