연구진은 비디오 추론에서 Vision-Language Models(VLMs)를 문제 해결사 대신 가이드 역할을 하도록 활용하는 새로운 패러다임을 제시했어요.
VLM은 비디오 생성 모델(VGMs)이 복잡한 추론 작업을 수행하도록 돕는 가이드 역할을 하며, 테스트 시간 온라인 최적화를 통해 VGMs의 성능을 향상시켰어요.
VBVR-Bench와 RULER-Bench 벤치마크에서 평균 16.7점의 성능 향상을 보여 기존 방식보다 우수한 결과를 얻었으며, 일반적인 비디오 추론 능력을 향상시키는 데 기여했어요.