Pulse · AI 뉴스

지시-증거 대비 이중 스트림 디코딩: 근거 기반 시각-언어 추론을 위한 새로운 접근법

arXiv cs.CV · 2026-04-29

연구진은 시각-언어 모델(VLM)이 유창한 답변을 내놓지만 시각적 증거에 대한 근거가 부족하다는 문제를 해결하기 위해 새로운 디코딩 프레임워크를 제안했어요.

Instruction-Evidence Contrastive Dual-Stream Decoding (IECD2)는 지시 기반 스트림과 증거 기반 스트림을 활용하여 언어적 정보와 시각적 충실도를 균형 있게 유지하며, 시각적 증거가 부족한 경우 언어적 편향을 줄여요.

POPE, MME, VQAv2 등 다양한 데이터셋에서 IECD2는 기존 방식보다 정확도와 추론 성능이 향상되었고, 환각 현상도 크게 감소했어요.

##VLM##시각언어모델##추론##디코딩

매일 핵심 AI 소식을 한국어로, 빠르게