Pulse · AI 뉴스

LLM 데이터 품질과 반복량에 따른 정보 스케일링 법칙 연구

arXiv cs.CL · 2026-05-04

연구진은 LLM 사전 훈련 시 고품질 데이터의 중요성을 강조하면서, 데이터 부족 및 과적합 상황에서 과도한 품질 가중치가 반복을 증가시켜 성능을 저하시킬 수 있음을 지적했어요.

InfoLaw라는 새로운 프레임워크를 통해 모델 크기, 데이터 혼합 비율, 반복량 등을 고려하여 손실을 예측하고, 데이터 스케일링 법칙을 개선했습니다.

InfoLaw는 7B, 425B 토큰 규모까지의 성능 예측 정확도가 0.15%로 높으며, 과적합 수준 변화에도 안정적으로 작동하여 효율적인 데이터 레시피 선택을 지원합니다.

##LLM##데이터스케일링##연구##InfoLaw##사전훈련

매일 핵심 AI 소식을 한국어로, 빠르게