연구진은 시각 언어 모델(VLM)이 시각적으로 모호한 입력에 대해 확신에 찬 답변을 내놓아 편향된 예측을 할 수 있다는 점을 지적했어요.
기존 Semantic Entropy(SE) 방식은 출력 다양성에 의존하지만, 시각적 임베딩이 과도하게 확신하여 다양성을 억제하고 불확실성을 낮게 평가한다는 문제점이 발견돼요.
연구진은 이미지만 변경하여 시각적 변형을 탐색하는 Visual Semantic Entropy(VSE)를 제안하여 시각적 모호성을 효과적으로 파악하고 VLM 불확실성 추정의 새로운 최고 성능을 달성했어요.