Pulse · AI 뉴스

VLM의 장면 이해, 인간과 얼마나 닮았을까? 새로운 평가 방법 제시

arXiv cs.CV · 2026-05-13

연구진은 VLM(Vision-Language Model)의 장면 이해 능력을 평가하는 새로운 방법인 'Counterfactual Semantic Saliency (CSS)'를 제시했어요. CSS는 객체를 제거했을 때 의미 변화를 측정하여 객체의 중요도를 파악하는 블랙박스 방식이에요.

CSS를 통해 VLM과 인간의 장면 이해를 비교한 결과, VLM은 큰 객체, 이미지 중앙의 객체, 눈에 띄는 객체에 과도하게 의존하는 경향을 보였어요.

연구 결과는 VLM의 객체 크기 편향이 모델과 인간의 장면 이해 차이를 설명하는 주요 원인임을 시사하며, 관련 코드와 데이터는 GitHub에서 확인할 수 있어요.

##VLM##인공지능##이미지인식##장면인식##평가방법

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기