연구진이 연속적인 3D 환경에서 추론하는 S-Agent라는 새로운 공간 도구 사용 에이전트 패러다임을 소개했어요.
S-Agent는 VLM을 의미론적 플래너로 활용하고, 공간 도구와 전문가 계층을 통해 2D 객체를 3D 기하학적 증거로 변환해 공간 지식을 축적해요.
S-Agent는 Scene Memory와 Agent Memory를 활용해 프레임 간 증거를 통합하고 추론 맥락을 유지하며, 다양한 공간 추론 벤치마크에서 기존 VLM 성능을 향상시켰어요.