이 논문은 768차원 벡터를 생성하고 8,192 토큰 컨텍스트 윈도우를 지원하는 터키어 중심의 문장 임베딩 모델 'embeddingmagibu-200m'을 소개합니다.
기존 BERT 기반 터키어 인코더의 512 토큰 제한을 극복하기 위해 교차 언어 토크나이저 최적화, 모델 복제, 오프라인 임베딩 증류의 3단계 적응 파이프라인을 사용했습니다.
학생 모델은 약 200M 파라미터를 가지며 단일 GPU에서 약 4시간 만에 학습되며, 총 비용은 5~20달러로 저렴합니다.
STSbTR 데이터셋에서 교사 모델(73.84%/72.92%)보다 높은 Pearson/Spearman 상관관계(77.55%/77.45%)를 달성했습니다.