타지크(키릴 문자)에서 페르시아어(페르시아-아랍 문자)로 자동 문자 변환을 다루는 연구입니다. 연구진은 52,152개의 타지크-페르시아어 단어 및 짧은 구절로 구성된 병렬 코퍼스를 구축했으며, 이는 공개적으로 사용 가능한 가장 큰 규모의 단어 수준 코퍼스 중 하나입니다. 문자 수준 트랜스포머 모델은 CER 0.3216, 정확도 0.3133을 달성하며 기존 방식보다 뛰어난 성능을 보였습니다.