연구진은 시각-언어 모델(VLM)이 유창한 답변을 내놓지만 시각적 증거에 대한 근거가 부족하다는 문제를 해결하기 위해 새로운 디코딩 프레임워크를 제안했어요.
Instruction-Evidence Contrastive Dual-Stream Decoding (IECD2)는 지시 기반 스트림과 증거 기반 스트림을 활용하여 언어적 정보와 시각적 충실도를 균형 있게 유지하며, 시각적 증거가 부족한 경우 언어적 편향을 줄여요.
POPE, MME, VQAv2 등 다양한 데이터셋에서 IECD2는 기존 방식보다 정확도와 추론 성능이 향상되었고, 환각 현상도 크게 감소했어요.