Pulse · AI 뉴스

Vision-OPD: 멀티모달 LLM의 미세한 시각적 디테일 학습을 위한 온-정책 자기 증류

Vision-OPD · 2026-05-19

연구진은 멀티모달 LLM이 미세한 시각적 이해에 어려움을 겪으며, 관련 증거에 집중하지 못하는 문제점을 발견했어요. Vision-OPD는 이러한 문제를 해결하기 위해 모델 자체의 지역적 시각적 인식을 전체 이미지 정책에 전달하는 자기 증류 프레임워크를 제안했어요.

Vision-OPD는 동일한 MLLM에서 지역 정보에 기반한 교사 모델과 전체 이미지에 기반한 학생 모델을 활용하여, 학생 모델이 시각적 확대의 이점을 내부화하도록 돕습니다. 외부 교사 모델, ground-truth 라벨, 보상 검증기, 추론 시간 도구 사용 없이도 가능해요.

다양한 미세한 시각적 이해 벤치마크에서 Vision-OPD 모델은 더 큰 오픈소스, 폐쇄형, 에이전트 모델과 경쟁력 있는 성능을 보여줬어요.

##멀티모달##LLM##시각적이해##자기증류##Vision-OPD

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기