Pulse · AI 뉴스

타지크어 텍스트 생성을 위한 파라미터 효율적인 미세 조정 연구

Mistral · 2026-05-05

본 연구는 키릴 문자 사용의 저자원 언어인 타지크어를 위한 생성형 대규모 언어 모델을 적응시키는 데 초점을 맞췄습니다.

연구진은 디지털 텍스트 자원의 부족을 극복하기 위해 319,298개의 문서(~11억 1천만 문자)로 구성된 타지크 웹 코퍼스를 만들고 공개했습니다.

Mistral 7B 모델에 QLoRA(r=16)를 적용했을 때 가장 좋은 성능(평균 퍼플렉시티 5.03)을 보였으며, 랭크를 늘려도 성능 향상은 미미했습니다.

##타지크어##언어모델##미세조정##QLoRA##코퍼스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기