연구진은 LLM 사전 훈련 시 고품질 데이터의 중요성을 강조하면서, 데이터 부족 및 과적합 상황에서 과도한 품질 가중치가 반복을 증가시켜 성능을 저하시킬 수 있음을 지적했어요.
InfoLaw라는 새로운 프레임워크를 통해 모델 크기, 데이터 혼합 비율, 반복량 등을 고려하여 손실을 예측하고, 데이터 스케일링 법칙을 개선했습니다.
InfoLaw는 7B, 425B 토큰 규모까지의 성능 예측 정확도가 0.15%로 높으며, 과적합 수준 변화에도 안정적으로 작동하여 효율적인 데이터 레시피 선택을 지원합니다.