SpatialWorld는 MLLM의 실세계 공간 추론 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. SpatialWorld는 8개의 시뮬레이션 백엔드를 통합하여 760개의 다양한 작업(가정, 여행, 협업 등)을 제공하며, 비전만으로 제한된 환경에서 에이전트가 능동적으로 정보를 수집하고 행동해야 합니다. GPT-5는 17.4%, Qwen-3.5는 14.1%의 낮은 성공률을 기록하며, 공간 추론 능력 향상의 필요성을 보여줍니다.