Pulse · AI 뉴스

카르테시안 착각을 넘어: 감각적 제약 하에서의 2단계 다중 양식 마음 이론 테스트

arXiv cs.CV · 2026-05-18

연구진은 다중 양식 대규모 언어 모델(MLLM)의 공간적 지능이 '카르테시안 착각'으로 인해 제한된다는 점을 밝혀냈습니다.

새로운 오디오-비주얼 과제를 통해 다른 에이전트의 위치 추정을 예측하는 2단계 공간 추론 능력을 테스트했습니다.

Anchor-Based Embodied Spatial Decomposition Chain-of-Thought(CoT)를 도입하여 에이전트의 감각적 제약을 고려한 추론을 유도했습니다.

실험 결과, 현재 MLLM은 공간적 대칭과 시야 밖의 모호함에 취약하지만, 제약된 감각 추론 체인은 기존 방식보다 우수한 성능을 보였습니다.

##MLLM##AI##TheoryofMind##SpatialReasoning

매일 핵심 AI 소식을 한국어로, 빠르게