연구진은 Vision-Language 모델(VLM)의 공간 추론 능력에 대한 새로운 분석 프레임워크를 제시했어요. VLM 내부의 공간 축이 어떻게 조직화되고 분리되는지 측정하기 위해 최소한의 대비 쌍을 사용했어요. 분석 결과, 대부분의 모델이 수직 이미지 위치와 거리를 혼동하는 원근법 편향을 보이는 것으로 나타났어요. 이를 해결하기 위해 공간 편향을 제거한 합성 벤치마크 SpatialTunnel을 개발하여 모델 내부 표현의 중요성을 강조했어요.
SpatialTunnel 벤치마크 실험 결과, 모델 내부의 공간 축이 잘 분리된 모델이 다양한 벤치마크에서 더 높은 정확도와 안정성을 보이는 것으로 확인됐어요. 연구는 모델의 공간 표현 구조가 성능과 견고성에 중요한 영향을 미친다는 것을 보여줘요.
연구 결과는 GitHub에서 확인할 수 있으며, VLM의 공간 추론 능력 향상을 위한 새로운 방향을 제시하고 있어요.