연구진은 LLM의 스케일링 법칙이 설명하지 못하는 현상(과적합, 양자화 저하)을 설명하기 위해 Shannon 스케일링 법칙을 제안했어요.
Shannon 스케일링 법칙은 LLM 학습을 노이즈 채널을 통한 정보 전송으로 모델링하며, 신호 대 잡음비(SNR)를 유지하지 못하면 성능이 저하된다고 설명해요.
Pythia와 OLMo2 모델에 대한 실험 결과, Shannon 스케일링 법칙은 기존 스케일링 법칙보다 우수한 성능을 보이며, 예측 정확도도 높게 나타났어요.