Morpheus는 터키어의 형태소 기반 언어적 특성을 고려한 새로운 신경 토크나이저입니다. 이 모델은 텍스트를 원본 형태로 정확하게 분리하고, 형태소 정보를 담은 단어 임베딩을 생성합니다.
기존 토크나이저보다 낮은 비트/문자(1.425) 비율을 달성하고, 형태소 정렬 성능을 약 두 배 향상시켰으며, GPU 메모리 사용량도 줄였습니다.
어휘 검색 및 동일 뿌리 검증 작업에서 기존 모델(BGE-M3, BERTurk)을 능가하는 성능을 보였으며, NER과 같은 작업에서는 문맥 정보를 활용하는 모델보다 약간 뒤쳐지는 성능을 보였습니다.
Morpheus의 코드, 모델, 데모는 GitHub, Hugging Face에서 공개되어 있습니다.