연구진은 다중 양식 대규모 언어 모델(MLLM)의 공간적 지능이 '카르테시안 착각'으로 인해 제한된다는 점을 밝혀냈습니다.
새로운 오디오-비주얼 과제를 통해 다른 에이전트의 위치 추정을 예측하는 2단계 공간 추론 능력을 테스트했습니다.
Anchor-Based Embodied Spatial Decomposition Chain-of-Thought(CoT)를 도입하여 에이전트의 감각적 제약을 고려한 추론을 유도했습니다.
실험 결과, 현재 MLLM은 공간적 대칭과 시야 밖의 모호함에 취약하지만, 제약된 감각 추론 체인은 기존 방식보다 우수한 성능을 보였습니다.