연구진은 언어 모델의 손실이 모델 및 데이터 크기에 따라 정규적인 스케일링 법칙을 따른다는 현상에 대해 토큰 수준의 프레임워크를 제시했어요. 토큰 학습이 국지적인 전환에 집중되어 학습 시간 스펙트럼을 형성하며, 이 스펙트럼이 스케일링 법칙의 형태를 결정한다는 사실을 밝혀냈어요. 실제 언어 데이터 학습 실험 결과, 토큰 학습 시간 분포를 활용해 학습 분포를 재구성하여 검증 손실 감소 속도를 11% 향상시켰어요.