연구진이 연속적인 3D 환경에서 추론하는 S-Agent라는 새로운 공간 도구 사용 에이전트 패러다임을 소개했어요.
S-Agent는 VLM을 의미론적 플래너로 활용하여 필요한 증거를 결정하고, 공간 도구와 전문가 계층을 통해 2D 객체를 3D로 변환하여 공간 지식을 축적해요.
S-Agent는 장면 메모리와 에이전트 메모리 메커니즘을 통해 프레임 간 증거를 통합하고 추론 과정을 개선하며, GPT-5.4 및 Gemini 3와 유사한 성능을 보여줘요.