Pulse · AI 뉴스

슬로바키아어 텍스트 임베딩 벤치마크 SkMTEB 공개: 현지 모델 개발

e5-sk-small · 2026-06-12

연구진이 슬로바키아어 텍스트 임베딩 벤치마크 SkMTEB를 발표했어요. 슬로바키아어는 저자원 언어인데, 7가지 유형의 31개 데이터셋으로 구성돼 있어요. SkMTEB 평가 결과, 다국어 instruction-tuned 모델이 가장 좋은 성능을 냈고, 기존 슬로바키아어 NLU 모델은 임베딩 작업에 적합하지 않다는 결과가 나왔어요.

연구진은 SkMTEB 기반으로 e5-sk-small(45M 파라미터)과 e5-sk-large(365M) 모델을 개발했어요. 모델 크기를 최대 62% 줄였지만, 상용 API와 경쟁력 있는 성능을 보여줘 로컬 배포가 가능해요.

##슬로바키아어##임베딩##벤치마크##MTEB##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기