체코다크스(CzechDocs)는 체코의 우크라이나어, 영어 등 소수 언어 서류의 HTML, DOCX, PDF 형식 병렬 데이터셋입니다. 서류 서식 보존 번역 시스템 평가를 목표로 합니다. 연구진은 데이터셋의 검증 세트에서 서식 보존 기계 번역 접근 방식을 비교했습니다. 검증 세트와 평가 도구는 공개되어 추가 연구에 활용 가능합니다.