Pulse · AI 뉴스

Visual Semantic Entropy: 시각 언어 모델이 시각적 모호성을 인지하는가?

Visual Semantic Entropy · 2026-06-30

연구진은 시각 언어 모델(VLM)이 시각적으로 모호한 입력에 대해 확신에 찬 답변을 내놓아 편향된 예측을 할 수 있다는 점을 지적했어요.

기존 Semantic Entropy(SE) 방식은 출력 다양성에 의존하지만, 시각적 임베딩이 과도하게 확신하여 다양성을 억제하고 불확실성을 낮게 평가한다는 문제점이 발견돼요.

연구진은 이미지만 변경하여 시각적 변형을 탐색하는 Visual Semantic Entropy(VSE)를 제안하여 시각적 모호성을 효과적으로 파악하고 VLM 불확실성 추정의 새로운 최고 성능을 달성했어요.

##VLM##시각언어모델##불확실성##VSE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기