본 연구는 타지크어(키릴 문자)와 페르시아어(아랍 문자) 간 기계식 음역 모델에 대한 최초의 종합 비교 분석을 제시합니다. 연구진은 다양한 출처에서 수집한 고유 병렬 코퍼스를 구축하고 검증했으며, 이 코퍼스는 328,253개의 문장 쌍으로 구성되었습니다. Byte-level ByT5 모델이 가장 우수한 성능(chrF++ 87.4)을 보였으며, G2P 트랜스포머 모델도 mBART보다 훨씬 뛰어난 성능을 나타냈습니다.