Pulse · AI 뉴스

토큰 학습 시간 분포가 스케일링 법칙을 지배한다는 증거

arXiv cs.CL · 2026-06-29

연구진은 언어 모델의 손실이 모델 및 데이터 크기에 따라 정규적인 스케일링 법칙을 따른다는 현상에 대해 토큰 수준의 프레임워크를 제시했어요.

토큰 학습이 국지적인 전환에 집중되어 학습 시간 스펙트럼을 형성하며, 이 스펙트럼이 스케일링 법칙의 형태를 결정한다는 사실을 밝혀냈어요.

실제 언어 데이터 학습 실험 결과, 토큰 학습 시간 분포를 활용해 학습 분포를 재구성하여 검증 손실 감소 속도를 11% 향상시켰어요.

##LLM##스케일링법칙##토큰학습##최적화

매일 핵심 AI 소식을 한국어로, 빠르게