연구진이 슬로바키아어 텍스트 임베딩 벤치마크 SkMTEB를 발표했어요. 슬로바키아어는 저자원 언어인데, 7가지 유형의 31개 데이터셋으로 구성돼 있어요. SkMTEB 평가 결과, 다국어 instruction-tuned 모델이 가장 좋은 성능을 냈고, 기존 슬로바키아어 NLU 모델은 임베딩 작업에 적합하지 않다는 결과가 나왔어요.
연구진은 SkMTEB 기반으로 e5-sk-small(45M 파라미터)과 e5-sk-large(365M) 모델을 개발했어요. 모델 크기를 최대 62% 줄였지만, 상용 API와 경쟁력 있는 성능을 보여줘 로컬 배포가 가능해요.