Sentence Transformers가 이미지, 음성, 영상 등 멀티모달 모델 지원을 강화하여 텍스트와 함께 다양한 형식의 데이터를 임베딩할 수 있게 됐습니다.
Qwen3-VL-Embedding-2B 모델을 사용하면 이미지 URL, 파일 경로, PIL Image 객체를 통해 이미지를 인코딩할 수 있으며, 텍스트와 이미지 간의 유사도를 계산할 수 있습니다.
멀티모달 모델은 텍스트, 이미지, 음성, 영상 등 다양한 입력 데이터를 동일한 임베딩 공간에 매핑하여 시각 문서 검색, 크로스 모달 검색, 멀티모달 RAG 파이프라인 구축에 활용할 수 있습니다.
v5.4 업데이트를 통해 텍스트, 이미지, 오디오, 비디오 입력을 동일한 API로 처리할 수 있으며, 이미지 지원을 위해 `sentence-transformers[image]` 설치가 필요합니다.
VLM 기반 모델은 GPU 사용을 권장하며, CPU 환경에서는 성능 저하가 발생할 수 있으므로 텍스트 전용 또는 CLIP 모델 사용을 고려해야 합니다.