타직어(Cyrillic 문자) NLP 툴킷이 부족한 문제를 해결하기 위해, 'TajikNLP' 오픈소스 파이썬 라이브러리가 공개되었습니다.
이 라이브러리는 텍스트 정리, 토큰화, 형태소 분석, 품사 태깅, 어간 추출, 표제어 추출, 문장 분리 등 다양한 기능을 제공하며, 새로운 통합 형태소 엔진을 포함합니다.
POS 태그 코퍼스, 감성 사전, 지명 사전, 인명 데이터셋 등 4개의 언어 데이터셋도 함께 공개되어 연구 및 산업적 활용을 지원합니다.