본 연구는 LLM에서 초기 토큰이 과도하게 어텐션 점수를 독점하는 어텐션 싱크 현상의 구조적 원인을 밝히는 데 초점을 맞췄습니다.
연구 결과, 셀프 어텐션의 값 집계 과정에서 발생하는 분산 불일치가 주요 원인이며, 피드포워드 네트워크(FFN) 내의 슈퍼 뉴런 활성화로 인해 현상 심화됩니다.
연구팀은 어텐션 마스크 수정 및 토큰 표현 분산 증폭을 통해 싱크 형성을 재현하며, 헤드 단위 RMSNorm을 통해 통계적 균형을 회복해 수렴 속도를 가속화했습니다.