연구진은 LLM의 스케일 벡터가 모델 파라미터의 극히 일부임에도 제거 시 사전 훈련 성능이 크게 저하된다는 사실을 밝혀냈습니다.
스케일 벡터는 Pre-Norm 아키텍처에서 표현력을 높이기보다는 선형 매핑에 대한 자체 증폭 프리컨디셔닝 효과를 통해 최적화를 개선합니다.
Input-Norm 레이어는 가중치 감소가 유익하지만 Output-Norm 레이어는 해롭다는 이론적 증거를 제시하고, 스케일 벡터 개선 전략 3가지 제안했습니다.
개선된 스케일 벡터 전략은 0.12B~2B 파라미터 모델에서 사전 훈련 실험을 통해 검증되었으며, 기존 방식 대비 낮은 최종 손실과 더 나은 확장성을 보였습니다.