Pulse · AI 뉴스

Decodable은 Grounded하지 않다: VLM 공간 추론을 위한 인과적 제어 판정자

arXiv cs.CV · 2026-06-30

연구진은 VLM의 잠재 지식을 선형 프로브로 읽어내는 방식이 실제 VLM이 이미지에 담고 있는 정보를 과장할 수 있음을 보여줬어요.

공간 추론 실험에서 회색 블랭크 이미지로 교체했을 때 오류가 드러났으며, 프로브와 스티어링으로는 감지되지 않았어요.

연구 결과, 축은 세 가지 방식으로 분류될 수 있는데, 프로빙은 이들을 혼동하며, 축이 Grounded(시각 의존적, 정확), Prior(시각 독립적), Inverted(잘못된 부호) 상태일 수 있음을 밝혀냈어요.

이러한 분류는 6개 언어 모델 패밀리, 20억~270억 파라미터 규모의 14개 VLM에서 일관되게 나타났으며, 모델 규모가 커질수록 Depth 축이 Inverted되는 경향을 보였어요.

##VLM##공간추론##인공지능##컴퓨터비전

매일 핵심 AI 소식을 한국어로, 빠르게