연구팀이 36개 유럽 언어에 대한 4.8조 토큰 규모의 합성 병렬 데이터셋 'MultiSynt/MT'를 공개했어요. Tower+와 OPUS-MT/HPLT-MT 시스템으로 고품질 Nemotron-CC 토큰을 번역해 제작됐어요. MultiSynt/MT로 학습한 LLM은 기존 데이터셋 대비 적은 토큰으로 더 높은 성능을 냈어요.
MultiSynt/MT는 중소자원 언어의 사전 학습 리소스로 활용 가능하며, 현재까지 공개된 최대 규모의 데이터셋이에요. 표준 벤치마크는 번역 품질 차이를 놓치지만, LLM-as-judge 평가를 통해 개선점을 발견할 수 있었어요.
연구팀은 데이터셋과 번역 결과를 공개하여 다국어 사전 학습 데이터 연구를 지원할 계획이에요.