Pulse · AI 뉴스

학습 덜하기가 더 효과적: 조기 상위 레이어 주의 집중화가 언어 모델 사전 훈련에 미치는 영향

arXiv cs.CL · 2026-05-11

연구에 따르면 GPT 사전 훈련 시 상위 레이어가 하위 레이어 특징이 안정화되기 전에 날카로운 주의 패턴에 집중하는 '조기 상위 레이어 주의 집중화'라는 문제점이 발생합니다.

이 문제를 해결하기 위해 초기 훈련 단계에서 상위 레이어의 Q/K 투영을 일시적으로 늦추면 다른 파라미터를 변경하지 않고도 최종 퍼플렉시티와 다운스트림 정확도를 향상시킬 수 있습니다.

LLaMA 스타일 블록에서는 이러한 개입이 거의 필요하지 않으며, 이는 곱셈 게이티드 FFN이 하위 레이어 잔여 쓰기를 억제하는 역할을 하기 때문입니다.

##LLM##GPT##주의집중화##사전훈련##LLaMA

매일 핵심 AI 소식을 한국어로, 빠르게