Morpheus는 터키어의 형태소를 인식하는 신경망 기반 토크나이저와 단어 임베더입니다. 기존 토크나이저가 통계에 의존하여 의미를 담은 접미사를 분리하는 문제점을 해결합니다.
Morpheus는 훈련 시 문자 단위 경계 확률을 부드러운 형태소 멤버십으로 변환하고 추론 시 정확한 세그먼트를 생성하며, 문자열 정규화 없이 작동합니다.
가역 토크나이저 중 가장 낮은 비트당 문자 수(1.425)를 달성하고, 64K 어휘의 서브워드 토크나이저보다 GPU 메모리 사용량을 약 19% 줄입니다.
어휘 검색(root-family MAP 0.85) 및 동일 근수 검증(ROC-AUC 1.00)에서 뛰어난 성능을 보이며, NER 및 격/수 조사 탐색과 같은 작업에서는 문맥 의존적 인코더가 여전히 우위를 점합니다.