Pulse · AI 뉴스

LLM의 스케일 벡터 연구: 규모는 작지만 효과는 크다

HuggingFace Papers · 2026-05-26

연구진은 LLM의 스케일 벡터가 모델 파라미터의 극히 일부임에도 제거 시 사전 훈련 성능이 크게 저하된다는 사실을 밝혀냈습니다.

스케일 벡터는 Pre-Norm 아키텍처에서 표현력을 높이기보다는 선형 매핑에 대한 자체 증폭 프리컨디셔닝 효과를 통해 최적화를 개선합니다.

Input-Norm 레이어는 가중치 감소가 유익하지만 Output-Norm 레이어는 해롭다는 이론적 증거를 제시하고, 스케일 벡터 개선 전략 3가지 제안했습니다.

개선된 스케일 벡터 전략은 0.12B~2B 파라미터 모델에서 사전 훈련 실험을 통해 검증되었으며, 기존 방식 대비 낮은 최종 손실과 더 나은 확장성을 보였습니다.

##LLM##스케일벡터##최적화

매일 핵심 AI 소식을 한국어로, 빠르게