연구진이 고품질 독일어 사전 훈련 데이터셋 KletterMix를 공개했어요. 영어 데이터셋을 독일어로 번역하여 제작했으며, 문서 경계, 메타데이터, 주제 다양성을 보존했어요.
COMETKiwi 평가 결과, 번역 품질이 뛰어나 원본의 의미와 스타일을 잘 보존하는 것으로 나타났어요. 다양한 분야에서 높은 품질을 달성했어요.
KletterMix로 훈련한 모델은 기존 독일어 데이터셋 대비 독일어 관련 평가에서 성능 향상을 보여줬으며, 독일어 사전 훈련 데이터 생태계 강화에 기여할 것으로 기대돼요.