SPACENUM 연구는 시각 언어 모델(VLM)이 공간적 환경에서 숫자(예: 행동 크기, 좌표)를 생성할 때, 실제 공간 인지 기반으로 숫자를 이해하는지 검증합니다.
Num2Space와 Space2Num이라는 양방향 과제를 통해 VLM이 공간 구조와 숫자 표현 간의 관계를 얼마나 잘 매핑하는지 평가한 결과, 모델들은 공간적 의미에 숫자를 연결하는 데 어려움을 겪는 것으로 나타났습니다.
연구 결과, VLM은 피상적인 공간적 단서에 의존하고, 안정적인 좌표 기반 표현을 구축하는 데 실패하며, 시각적 관찰로부터 구조화된 공간적 레이아웃을 추상화하지 못하는 한계가 확인되었습니다.