Pulse · AI 뉴스

다양성보다 반복: 효율적인 독일어 언어 모델링을 위한 고품질 데이터 필터링

Boldt · 2026-05-01

연구진은 대규모 독일어 웹 데이터를 필터링하여 학습 효율성을 높이는 전략적 딜레마를 조사했어요. 고품질 핵심 데이터 반복 학습과 대량의 가볍게 필터링된 웹 데이터 단회 학습을 비교했죠.

다양한 모델 크기와 토큰 예산으로 실험한 결과, 고품질 데이터 반복 학습이 더 큰 규모의 다양한 데이터로 단회 학습하는 것보다 꾸준히 우수한 성능을 보였어요.

연구진은 10~360배 적은 토큰으로 학습했음에도 불구하고 최고 수준의 결과를 달성한 독일어 모델(Boldt)과 정리된 평가 벤치마크를 공개했어요.

##언어모델##독일어##필터링##데이터##Boldt

매일 핵심 AI 소식을 한국어로, 빠르게