Pulse · AI 뉴스

Morpheus: 터키어 형태소 인식 신경 토크나이저 및 단어 임베더

Morpheus · 2026-06-17

Morpheus는 터키어의 형태소 기반 언어적 특성을 고려한 새로운 신경 토크나이저입니다. 이 모델은 텍스트를 원본 형태로 정확하게 분리하고, 형태소 정보를 담은 단어 임베딩을 생성합니다.

기존 토크나이저보다 낮은 비트/문자(1.425) 비율을 달성하고, 형태소 정렬 성능을 약 두 배 향상시켰으며, GPU 메모리 사용량도 줄였습니다.

어휘 검색 및 동일 뿌리 검증 작업에서 기존 모델(BGE-M3, BERTurk)을 능가하는 성능을 보였으며, NER과 같은 작업에서는 문맥 정보를 활용하는 모델보다 약간 뒤쳐지는 성능을 보였습니다.

Morpheus의 코드, 모델, 데모는 GitHub, Hugging Face에서 공개되어 있습니다.

##토크나이저##터키어##임베딩##Morpheus
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기