연구에 따르면 GPT 사전 훈련 시 상위 레이어가 하위 레이어 특징이 안정화되기 전에 날카로운 주의 패턴에 집중하는 '조기 상위 레이어 주의 집중화'라는 문제점이 발생합니다.
이 문제를 해결하기 위해 초기 훈련 단계에서 상위 레이어의 Q/K 투영을 일시적으로 늦추면 다른 파라미터를 변경하지 않고도 최종 퍼플렉시티와 다운스트림 정확도를 향상시킬 수 있습니다.
LLaMA 스타일 블록에서는 이러한 개입이 거의 필요하지 않으며, 이는 곱셈 게이티드 FFN이 하위 레이어 잔여 쓰기를 억제하는 역할을 하기 때문입니다.