ViSRA는 멀티모달 LLM의 공간 추론 능력을 탐구하기 위한 프레임워크로, 훈련 없이 작동하는 비디오 기반 에이전트입니다. 전문 모델의 공간 정보를 활용하여 모듈화되고 확장 가능한 방식으로 공간 추론을 가능하게 하며, 작업별 과적합 없이 인간과 유사한 3D 이해를 제공합니다. 기존 벤치마크와 새로운 3D 공간 추론 작업에서 ViSRA는 최대 15.6%와 28.9%의 절대적인 성능 향상을 보였습니다.