연구진은 시각적 근거 체인 오브 씽킹(CoT)이 추론 단계에서 성능을 저하시킨다는 것을 발견했어요. 시각적 위치 정보에 의존하는 대신 텍스트 CoT에 위치 정보 능력을 내부화하는 방식이 더 효과적이라고 판단했어요.
iVGR은 강화 학습 프레임워크로, 텍스트 추론 과정에 위치 정보 능력을 전달하며, 시각적 근거 CoT를 활용해 텍스트 스트림을 정렬하고 일관성 보상으로 모델을 학습해요.
실험 결과 iVGR은 기존 방식보다 뛰어난 성능을 보였으며, 도구 지원 추론 워크플로우에도 유연성을 제공하는 것으로 나타났어요.