대규모 언어 모델(LLM)은 지능의 원리를 이해하는 데 도움이 되는 시스템입니다. 연구에 따르면 모델 용량은 파라미터 초기화에 큰 영향을 받으며, 초기화 규모를 줄이면 사전 훈련 성능이 향상됩니다. 특히 추론 능력이 요구되는 작업에서 효과적이며, 초기화 방식은 모델의 발달 경로에 영향을 미칩니다.
연구팀은 초기화 규모를 줄이는 것이 거의 비용 없는 개입으로 사전 훈련을 개선하고 모델 규모에 따른 추론 능력을 강화하는 데 도움이 된다고 밝혔습니다. 초기화 방식을 조절하는 $γ$-초기화 규칙을 제안하며, 초기화 범위를 명시적인 조절 장치로 사용하고 작은 초기화로 기본 설정하는 것을 권장합니다.
토큰 수준 분석 결과, 초기화 방식 개선은 모든 토큰에 균일하게 적용되는 것이 아니라, 문맥 제약이 있는 예측에 집중되는 것으로 나타났습니다. 이는 LLM의 지능이 단순한 정보 처리가 아닌, 복잡한 상호작용에서 비롯된다는 점을 시사합니다.