본 연구는 시각 질의 응답(VQA)에서 멀티모달 대규모 언어 모델(MLLM)의 성능을 향상시키기 위해 Chain-of-Thought(CoT) 추론과 시각 질의 분해(VQD)를 결합한 CoVQD 전략을 제안합니다.
CoVQD 전략은 MLLM 추론에 필요한 정확하고 관련성 높은 지식을 검색하도록 안내하며, 검색 증강 생성(RAG) 프레임워크인 CgRAG를 통해 외부 지식 활용도를 높입니다.
E-VQA, InfoSeek, OKVQA 벤치마크 실험 결과, 제안된 방법이 복잡한 시각 질의 응답 시 일반화 능력과 신뢰성을 향상시키는 것을 확인했습니다.