본 연구는 타지크어 자동 품사 태깅을 위한 최초의 벤치마크를 제시합니다. 다국어 언어 모델은 많은 언어에 대해 효과적이지만, 타지크어의 문법 분석 능력은 이번 연구를 통해 처음으로 탐구되었습니다.
TajPersParallel 코퍼스(약 44,000개의 사전 항목)를 사용하여 실험을 진행했으며, 문맥 의존적 분류가 아닌 독립적인 어휘 단위 수준에서 수행되었습니다.
mBERT + LoRA 모델이 가장 좋은 성능(macro F1-score = 0.11, weighted F1-score = 0.62)을 보였으며, 타지크어는 페르시아어(ParsBERT)와 러시아어(ruBERT)에 가장 가까운 것으로 나타났습니다.