Pulse · AI 뉴스

트랜스포머의 카운팅 실패 원인 분석 및 해결 방안: 올바른 답, 잘못된 방향

Mistral · 2026-05-05

연구진은 Pythia, Qwen3, Mistral 등 다양한 크기의 LLM이 프롬프트에 명시된 항목 수를 세는 간단한 작업에서 실패하는 현상을 조사했습니다. 모델 내부 계층에서 정확한 개수를 거의 완벽하게 복구할 수 있지만, 개수를 나타내는 내부 방향이 숫자 토큰 출력 헤드 행과 거의 직각을 이루는 것으로 나타났습니다.

디지털 행렬을 업데이트하여 제약 조건 내에서 다음 토큰을 예측하는 정확도를 높이는 방법과, 어텐션 Q/V 가중치에 LoRA 개입을 통해 상위 경로를 개선하는 방법이 제시되었습니다. LoRA 개입은 83.1%의 정확도를 달성하며, 올바른 숫자의 어휘 순위를 50,000배 개선했습니다.

이 연구는 카운팅 실패가 내부 표현 실패가 아닌 기하학적 읽기 병목 현상임을 밝히며, 모델이 개수를 알고 있지만 이를 표현하는 데 필요한 토큰과의 경로가 기하학적으로 정렬되지 않았음을 보여줍니다.

##LLM##카운팅##기하학적병목##Qwen3##Mistral

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기