연구진은 비디오 추론 모델(VGM)의 성능을 향상시키기 위해 Vision-Language Models(VLM)을 '교사'로 활용하는 새로운 패러다임을 제시했어요.
VLM 교사는 작업별 규칙을 추출하여 가치 함수를 만들고, LoRA 모듈을 통해 VGM 추론기를 테스트 시간 온라인 최적화하여 안내해요.
VBVR-Bench와 RULER-Bench 벤치마크에서 평균 16.7점의 성능 향상을 보여, 기존 VLM-as-Solver 방식보다 우수한 성능을 나타냈어요.