Sentence Transformers 팀이 시각 문서 검색 성능을 높인 Qwen3-VL-Embedding-2B 모델을 공개했어요. 기존 모델 대비 NDCG@10 지표가 0.947로 크게 향상되었어요.
이 모델은 텍스트 질의에 가장 관련 있는 문서 페이지(이미지 형태)를 검색하는 데 특화되어 있으며, 문서 레이아웃, 차트, 테이블 이해 능력을 향상시켰어요.
Qwen3-VL-Embedding-2B 모델은 기존 모델보다 크기가 작음에도 불구하고, 더 큰 모델들보다 뛰어난 성능을 보여줘서 효율적인 학습 가능성을 시사해요.
모델 학습에는 이미지와 텍스트를 함께 사용하는 데이터셋이 활용되었으며, 다양한 손실 함수(CachedMultipleNegativesRankingLoss, MatryoshkaLoss)를 적용했어요.
Sentence Transformers는 이 모델을 포함해 다양한 임베딩 및 리랭킹 모델을 제공하며, 사용자는 자신의 데이터에 맞춰 모델을 학습하거나 미세 조정할 수 있어요.