다중 모드 LLM은 시각적 입력과 텍스트 추론을 결합하지만, 이미지와 일관되지 않은 응답을 내놓아 시각적 증거 활용에 어려움이 있어요. 기존 방식은 캡션 기반 사전 학습에 의존하지만, 짧고 개괄적인 캡션은 모델이 중요한 객체에만 집중하게 만들어 세밀한 시각적 증거를 놓치게 돼요. 연구진은 시각 증거 사전 정렬(VEPA)을 제안하여 질문 기반 시각적 증거 설명 최적화를 통해 시각적 기반을 강화했어요.
VEPA는 사전 학습과 사후 학습 사이의 중간 단계로, 다양한 벤치마크에서 시각적으로 까다로운 평가에서 성능을 향상시키는 것을 확인했어요. VEPA는 기존 방식의 사후 학습을 보완하며, 추가적인 작업별 학습 없이도 시각적 기반을 강화하는 것으로 나타났어요.
연구 결과는 MLLM이 시각적 증거를 더 효과적으로 활용하도록 돕는 새로운 접근 방식의 가능성을 보여줘요.