연구진이 시각적 개념 추론 능력을 평가하는 새로운 방법 VICIS(Visual Concept Inference from Sets)를 제시했어요. VICIS는 이미지 집합에서 공유 개념을 추론하고 새로운 이미지 생성에 적용하는 능력을 측정합니다. 현재 VLM은 이 능력이 부족하여 시각적 맥락을 무시하거나 편향된 결과물을 생성하는 경향이 있어요.
연구진은 이미지 집합에서 시각적 개념을 추론하고 쿼리에서 개념별 임베딩을 추출하는 훈련 프레임워크와 아키텍처를 제안했어요. 합성 데이터와 ImageNet/WordNet 데이터셋을 활용한 실험에서 더 정확하고 다양한 결과물을 생성하는 것을 확인했어요.
VICIS를 통해 기존 VLM의 한계를 극복하고, 스케치와 같은 새로운 모달리티에도 일반화되는 모델 개발 가능성을 보여줬어요.