연구진은 Pythia, Qwen3, Mistral 등 다양한 크기의 LLM이 프롬프트에 명시된 항목 수를 세는 간단한 작업에서 실패하는 현상을 조사했습니다. 모델 내부 계층에서 정확한 개수를 거의 완벽하게 복구할 수 있지만, 개수를 나타내는 내부 방향이 숫자 토큰 출력 헤드 행과 거의 직각을 이루는 것으로 나타났습니다.
디지털 행렬을 업데이트하여 제약 조건 내에서 다음 토큰을 예측하는 정확도를 높이는 방법과, 어텐션 Q/V 가중치에 LoRA 개입을 통해 상위 경로를 개선하는 방법이 제시되었습니다. LoRA 개입은 83.1%의 정확도를 달성하며, 올바른 숫자의 어휘 순위를 50,000배 개선했습니다.
이 연구는 카운팅 실패가 내부 표현 실패가 아닌 기하학적 읽기 병목 현상임을 밝히며, 모델이 개수를 알고 있지만 이를 표현하는 데 필요한 토큰과의 경로가 기하학적으로 정렬되지 않았음을 보여줍니다.