Pulse · AI 뉴스

체코다크스: 체코의 소수 언어 서류 번역 평가를 위한 멀티웨이 병렬 데이터셋

CzechDocs · 2026-06-18

체코다크스(CzechDocs)는 체코의 우크라이나어, 영어 등 소수 언어 서류의 HTML, DOCX, PDF 형식 병렬 데이터셋입니다. 서류 서식 보존 번역 시스템 평가를 목표로 합니다. 연구진은 데이터셋의 검증 세트에서 서식 보존 기계 번역 접근 방식을 비교했습니다. 검증 세트와 평가 도구는 공개되어 추가 연구에 활용 가능합니다.

##데이터셋##기계번역##문서번역##체코어##소수언어
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기