연구진은 LLM의 스케일링 법칙이 설명하지 못하는 현상(과잉학습, 양자화 저하 등)을 설명하기 위해 Shannon 스케일링 법칙을 제안했어요.
Shannon 스케일링 법칙은 LLM 학습을 노이즈 채널을 통한 정보 전송으로 모델링하며, 신호 대 잡음비(SNR) 부족은 성능 저하를 유발한다고 설명해요.
Pythia와 OLMo2 모델에 대한 실험 결과, Shannon 스케일링 법칙은 기존 법칙보다 우수한 예측력을 보이며, 기존 방식으로는 파악하기 어려웠던 손실 지점을 정확히 포착했어요.