연구진은 대규모 독일어 웹 데이터를 필터링하여 학습 효율성을 높이는 전략적 딜레마를 조사했어요. 고품질 핵심 데이터 반복 학습과 대량의 가볍게 필터링된 웹 데이터 단회 학습을 비교했죠.
다양한 모델 크기와 토큰 예산으로 실험한 결과, 고품질 데이터 반복 학습이 더 큰 규모의 다양한 데이터로 단회 학습하는 것보다 꾸준히 우수한 성능을 보였어요.
연구진은 10~360배 적은 토큰으로 학습했음에도 불구하고 최고 수준의 결과를 달성한 독일어 모델(Boldt)과 정리된 평가 벤치마크를 공개했어요.