최근 시각-언어 모델(VLM)이 이미지-텍스트(I2T) 및 텍스트-이미지(T2I) 생성 작업의 출력 평가에 점점 더 많이 사용되고 있어요. 연구진은 VLM 평가 모델이 객체 환각, 공간 추론 오류 등을 제대로 감지하지 못하는 맹점이 있음을 발견했어요. 40개 차원의 4000개 이상 교란 사례를 통해 현재 VLM 평가 모델의 신뢰성이 낮다는 점을 지적하며, 벤치마킹 및 개발 결정 시 주의를 촉구했어요.