Pulse · AI 뉴스

LLM 어텐션 싱크 현상의 구조적 원인 규명: 분산 불일치, 슈퍼 뉴런, 차원 불일치

RMSNorm · 2026-05-08

본 연구는 LLM에서 초기 토큰이 과도하게 어텐션 점수를 독점하는 어텐션 싱크 현상의 구조적 원인을 밝히는 데 초점을 맞췄습니다.

연구 결과, 셀프 어텐션의 값 집계 과정에서 발생하는 분산 불일치가 주요 원인이며, 피드포워드 네트워크(FFN) 내의 슈퍼 뉴런 활성화로 인해 현상 심화됩니다.

연구팀은 어텐션 마스크 수정 및 토큰 표현 분산 증폭을 통해 싱크 형성을 재현하며, 헤드 단위 RMSNorm을 통해 통계적 균형을 회복해 수렴 속도를 가속화했습니다.

##LLM##어텐션##싱크##연구

매일 핵심 AI 소식을 한국어로, 빠르게