연구진은 시각-언어 모델(VLM)의 공간 추론 능력에 대한 새로운 분석 프레임워크를 제시했어요. VLM 내부의 공간 축이 어떻게 조직화되고 분리되는지 측정하는 방법으로, 최소한의 대비 쌍을 활용했어요. 분석 결과, 대부분의 모델이 수직 이미지 위치와 거리를 혼동하는 '수직-거리 얽힘' 현상을 보였어요. 이로 인해 자연스러운 사진의 원근법 편향에 따른 정확도 격차가 발생하며, 데이터 규모가 커져도 악화될 수 있어요.
SpatialTunnel이라는 합성 벤치마크를 통해 모델 내부의 편향을 분리하고, 공간 축이 잘 분리된 모델이 다양한 벤치마크에서 더 높은 안정성을 보이는 것을 확인했어요. 연구 결과는 프로젝트 페이지에서 확인할 수 있어요.
이 연구는 VLM의 공간 추론 능력이 단순한 통계적 단축키에 의존하는지, 아니면 3차원 공간에 대한 구조적인 이해를 반영하는지를 밝히는 데 기여해요.