Pulse · AI 뉴스

어텐션의 상전이: 복사 헤드 출현에 대한 베이지안 이론

arXiv cs.LG · 2026-06-10

연구진은 어텐션 기반 트랜스포머 모델의 특징 학습에 대한 베이지안 이론을 제시했어요. 단일 레이어 소프트맥스 어텐션 네트워크를 활용해 복사 서브회로 학습 과정을 분석했어요. 훈련 데이터 양에 따른 상전이 현상을 확인하고, 선형 어텐션과의 차이를 밝혔어요.

소프트맥스 어텐션은 1차 상전이를 보이는 반면, 선형 어텐션은 2차 상전이 후 점진적인 변화를 겪는다는 결과를 얻었어요. 이 연구는 대규모 언어 모델 훈련 시 관찰되는 복사 서브회로의 갑작스러운 출현을 설명하는 이론적 근거를 제공해요.

베이지안 샘플링과 Adam을 이용한 표준 훈련 모두에서 상전이 현상을 검증했으며, 어텐션 행렬에 대한 폐쇄형 사후 분포를 도출하고 저차원 파라미터 공간으로 축소했어요.

##어텐션##베이지안##상전이##트랜스포머##복사헤드
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기