Pulse · AI 뉴스

타지크-페르시아어 기계식 음역 모델 비교 분석: 규칙 기반에서 트랜스포머 아키텍처까지

ByT5 · 2026-05-04

본 연구는 타지크어(키릴 문자)와 페르시아어(아랍 문자) 간 기계식 음역 모델에 대한 최초의 종합 비교 분석을 제시합니다.

연구진은 다양한 출처에서 수집한 고유 병렬 코퍼스를 구축하고 검증했으며, 이 코퍼스는 328,253개의 문장 쌍으로 구성되었습니다.

Byte-level ByT5 모델이 가장 우수한 성능(chrF++ 87.4)을 보였으며, G2P 트랜스포머 모델도 mBART보다 훨씬 뛰어난 성능을 나타냈습니다.

##기계음역##타지크어##페르시아어##트랜스포머
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기