Pulse · AI 뉴스

보는 것이 믿는 것이 아니다: 평가용 시각-언어 모델의 맹점 파악

arXiv cs.CL · 2026-04-23

최근 시각-언어 모델(VLM)이 이미지-텍스트(I2T) 및 텍스트-이미지(T2I) 생성 작업의 출력 평가에 점점 더 많이 사용되고 있어요.

연구진은 VLM 평가 모델이 객체 환각, 공간 추론 오류 등을 제대로 감지하지 못하는 맹점이 있음을 발견했어요.

40개 차원의 4000개 이상 교란 사례를 통해 현재 VLM 평가 모델의 신뢰성이 낮다는 점을 지적하며, 벤치마킹 및 개발 결정 시 주의를 촉구했어요.

##VLM##평가모델##시각언어모델##벤치마크##오류분석
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기