연구진은 공간 시각 언어 모델(VLM)의 복잡한 공간 추론 능력을 향상시키는 SR-REAL 프레임워크를 개발했어요. SR-REAL은 언어적 추론(LOR)과 3D 지각 기반 추론(DTR)이라는 두 가지 상호 보완적인 추론 경로를 통합하여 다양한 공간적 쿼리에 대응해요. SR-REAL은 지도 학습과 강화 학습을 결합하여 모델을 훈련하며, 다양한 공간 벤치마크에서 기존 VLM을 능가하는 성능을 보여줘요.