본 연구는 키릴 문자 사용의 저자원 언어인 타지크어를 위한 생성형 대규모 언어 모델을 적응시키는 데 초점을 맞췄습니다. 연구진은 디지털 텍스트 자원의 부족을 극복하기 위해 319,298개의 문서(~11억 1천만 문자)로 구성된 타지크 웹 코퍼스를 만들고 공개했습니다. Mistral 7B 모델에 QLoRA(r=16)를 적용했을 때 가장 좋은 성능(평균 퍼플렉시티 5.03)을 보였으며, 랭크를 늘려도 성능 향상은 미미했습니다.