Pulse · AI 뉴스

MLLM 기반 시각 질의 응답 성능 향상: 체인-오브-퀘스천 가이드 기반 검색 증강 생성

arXiv cs.CV · 2026-05-05

본 연구는 시각 질의 응답(VQA)에서 멀티모달 대규모 언어 모델(MLLM)의 성능을 향상시키기 위해 Chain-of-Thought(CoT) 추론과 시각 질의 분해(VQD)를 결합한 CoVQD 전략을 제안합니다.

CoVQD 전략은 MLLM 추론에 필요한 정확하고 관련성 높은 지식을 검색하도록 안내하며, 검색 증강 생성(RAG) 프레임워크인 CgRAG를 통해 외부 지식 활용도를 높입니다.

E-VQA, InfoSeek, OKVQA 벤치마크 실험 결과, 제안된 방법이 복잡한 시각 질의 응답 시 일반화 능력과 신뢰성을 향상시키는 것을 확인했습니다.

##MLLM##VQA##CoT##RAG##시각질의응답

매일 핵심 AI 소식을 한국어로, 빠르게