연구진은 VLM(Vision-Language Model)의 장면 이해 능력을 평가하는 새로운 방법인 'Counterfactual Semantic Saliency (CSS)'를 제시했어요. CSS는 객체를 제거했을 때 의미 변화를 측정하여 객체의 중요도를 파악하는 블랙박스 방식이에요.
CSS를 통해 VLM과 인간의 장면 이해를 비교한 결과, VLM은 큰 객체, 이미지 중앙의 객체, 눈에 띄는 객체에 과도하게 의존하는 경향을 보였어요.
연구 결과는 VLM의 객체 크기 편향이 모델과 인간의 장면 이해 차이를 설명하는 주요 원인임을 시사하며, 관련 코드와 데이터는 GitHub에서 확인할 수 있어요.