연구진은 제한된 시점 정보만으로 공간 추론을 하는 기존 방식의 한계를 지적했어요. Reason, then Re-reason(ReRe) 프레임워크는 MLLM이 공간 가설을 세우고, 새로운 시점의 영상을 통해 가설을 검증하거나 수정하는 방식으로 작동해요. Geometry-to-Video 파이프라인을 통해 전략적으로 보완적인 새로운 시점을 생성하여 MLLM의 성능을 향상시켰어요.
VSI-Bench와 STI-Bench 평가 결과, ReRe는 오픈소스 MLLM의 성능을 향상시켜 상용 최고 성능에 버금가는 결과를 보여줬어요. 새로운 시점 영상을 통해 공간 가설을 검증하고 수정하는 방식은 공간 추론의 정확도를 높이는 데 기여해요.