Pulse · AI 뉴스

ROVER: 시각적 증거 객체 중심 라우팅을 통한 Grounded 멀티 이미지 추론

Qwen · 2026-05-27

연구진은 MLLM의 시각적 증거 활용 효율성을 높이는 ROVER라는 새로운 플러그인을 제안했어요.

ROVER는 객체 중심의 차등 어텐션을 통해 이미지 내 단서를 추출하고, 객체 및 이미지 간의 시각적 증거를 라우팅하여 추론에 활용해요.

Qwen2.5-VL-7B에 ROVER를 통합하고 SFT-to-GRPO 훈련 파이프라인을 구축하여 MM-GCoT와 VideoEspresso에서 최고 성능을 달성했어요.

##MLLM##객체추론##시각적증거##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게