연구진이 고품질 독일어 사전 훈련 데이터셋 KletterMix를 공개했어요. 영어 데이터셋을 독일어로 번역하여 제작했으며, 문서 경계, 메타데이터, 주제 다양성을 보존했어요.
COMETKiwi 평가 결과, 다양한 분야에서 높은 품질을 달성했으며, 원본 데이터의 의미와 스타일을 잘 보존했어요.
KletterMix로 훈련한 모델은 기존 독일어 데이터셋 대비 독일어 downstream 평가에서 성능 향상을 보였으며, 독일어 사전 훈련 데이터 생태계 강화에 기여할 것으로 기대돼요.