연구진은 MLLM의 시각적 증거 활용 효율성을 높이는 ROVER라는 새로운 플러그인을 제안했어요. ROVER는 객체 중심의 차등 어텐션을 통해 이미지 내 단서를 추출하고, 객체 및 이미지 간의 시각적 증거를 라우팅하여 추론에 활용해요. Qwen2.5-VL-7B에 ROVER를 통합하고 SFT-to-GRPO 훈련 파이프라인을 구축하여 MM-GCoT와 VideoEspresso에서 최고 성능을 달성했어요.