연구진은 멀티모달 LLM이 미세한 시각적 이해에 어려움을 겪으며, 관련 증거에 집중하지 못하는 문제점을 발견했어요. Vision-OPD는 이러한 문제를 해결하기 위해 모델 자체의 지역적 시각적 인식을 전체 이미지 정책에 전달하는 자기 증류 프레임워크를 제안했어요.
Vision-OPD는 동일한 MLLM에서 지역 정보에 기반한 교사 모델과 전체 이미지에 기반한 학생 모델을 활용하여, 학생 모델이 시각적 확대의 이점을 내부화하도록 돕습니다. 외부 교사 모델, ground-truth 라벨, 보상 검증기, 추론 시간 도구 사용 없이도 가능해요.
다양한 미세한 시각적 이해 벤치마크에서 Vision-OPD 모델은 더 큰 오픈소스, 폐쇄형, 에이전트 모델과 경쟁력 있는 성능을 보여줬어요.