Pulse · AI 뉴스

문서 기반 시각 질의응답에서 체인-오브-익스플레인션 예측을 통한 자기 설명 가능성 연구

CoExVQA · 2026-05-07

연구진은 문서 기반 시각 질의응답(DocVQA) 모델의 설명 가능성을 높이기 위해 CoExVQA 프레임워크를 제안했어요. CoExVQA는 질문과 관련된 증거를 먼저 파악하고, 답변 영역을 명시적으로 찾아낸 후, 해당 영역에서만 답변을 추론하는 방식으로 작동해요.

CoExVQA의 체인-오브-익스플레인션 예측 방식을 통해 다양한 모달리티 간의 추론 과정을 직접 검토하고 확인할 수 있어요.

실험 결과, CoExVQA는 PFL-DocVQA 데이터셋에서 기존 설명 가능 모델 대비 ANLS를 12% 향상시키며 뛰어난 성능을 보여줬어요.

##DocVQA##자기설명가능성##시각질의응답

매일 핵심 AI 소식을 한국어로, 빠르게