연구진은 고품질 텍스트 공급보다 컴퓨팅 자원이 빠르게 증가하는 상황에서 멀티-에포크 트레이닝이 표준으로 자리 잡고 있다고 주장합니다.
하이퍼-에포크 프리트레이닝(q0)은 멀티-에포크 예산을 다양한 모델들의 집합을 탐색하고 예측을 집계하는 방식으로 전환하여 단일 모델을 반복적으로 개선하는 것보다 더 나은 성능을 낼 수 있습니다.
q0는 주기적인 스케줄, 체인 증류, 학습된 사전 지식을 활용하여 데이터 효율성을 높이고, 1.8B 파라미터 모델에서 256 에포크 앙상블과 유사한 성능을 ${acksim}56$ 에포크 만에 달성했습니다.