본 연구는 대규모 언어 모델에서 널리 사용되는 가중치 감소가 트랜스포머 손실 환경을 어떻게 형성하는지에 대한 이론적 분석을 제공합니다.
연구 결과, 가중치 감소를 포함한 정규화 손실은 특정 조건을 만족하며, 이는 노이즈가 있는 확률적 경사 하강법의 수렴 보장 및 PAC-Bayesian 일반화 경계에 영향을 미칩니다.
Villani 진단법을 도입하여 실제 모델에서 이론적 예측을 검증했으며, GPT-Neo-125M 모델에서 Hessian 스펙트럼 팽창 및 지수 수렴과 같은 현상을 확인했습니다.