Pulse · AI 뉴스

터키어 문장 임베딩 모델 적응: 교차 언어 토크나이저 수술 및 오프라인 증류

embeddingmagibu-200m · 2026-05-28

이 논문은 터키어에 특화된 문장 임베딩 모델 'embeddingmagibu-200m'을 소개합니다. 이 모델은 768차원 L2 정규화 벡터를 생성하며, 8,192 토큰 컨텍스트 윈도우를 지원합니다. 모델 적응은 세 단계로 구성됩니다. 첫째, 40개 언어 코퍼스를 기반으로 토크나이저를 최적화하고, 둘째, 교사 모델의 가중치를 유지하며 임베딩 테이블을 초기화하고, 셋째, 오프라인 증류를 수행합니다.

약 200M 파라미터로 구성된 학생 모델은 단일 GPU에서 약 4시간 안에 학습되며, 총 비용은 5~20달러입니다. STSbTR 데이터셋에서 피어슨/스피어만 상관관계 77.55%/77.45%를 달성하여 300M 파라미터 교사 모델을 능가합니다.

TR-MTEB (26개 작업)에서 평균 점수 63.9%를 기록하며, 교사 모델보다 33% 적은 파라미터로 경쟁력 있는 비용-품질 균형을 제공합니다. 모델 가중치, 토크나이저 파일, 사전 계산된 임베딩 데이터셋, 오픈 소스 복제 및 증류 도구 등 모든 아티팩트가 공개되었습니다.

터키어 문장 임베딩 모델 개발에 새로운 접근 방식을 제시하며, 터키어 자연어 처리 연구에 기여할 것으로 기대됩니다.

##터키어##임베딩##NLP##모델##증류

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기