SpatialWorld는 MLLM의 실세계 공간 추론 능력을 평가하는 새로운 벤치마크입니다. 8가지 시뮬레이션 환경을 통합하여 760개의 다양한 실제 작업(가사, 여행, 협업)을 제공합니다. 에이전트는 시각 정보만으로 제한된 환경에서 작업을 수행하며, 텍스트 기반 액션 인터페이스를 통해 의사 결정을 내립니다.
GPT-5를 포함한 15개 에이전트 평가 결과, 평균 작업 성공률(TSR)은 17.4%에 불과하며, 오픈소스 모델인 Qwen-3.5는 14.1%를 기록했습니다. 이는 공간 추론 작업이 여전히 어렵다는 것을 보여줍니다.
분석 결과, 작업 성공률과 실행 효율성 간의 불일치, 그리고 도메인별 성능 편차가 뚜렷하게 나타났습니다. SpatialWorld는 향후 공간 에이전트 개발을 위한 엄격한 테스트베드로 활용될 것입니다.