연구진은 멀티모달 LLM의 신뢰성 있는 추론을 평가하기 위한 벤치마크인 DocScope를 발표했습니다. DocScope는 PDF 문서와 질문을 기반으로 증거 페이지, 관련 사실, 최종 답변을 예측하는 구조화된 추론 경로 예측 문제로 QA를 정의합니다.
DocScope는 페이지 위치 파악, 영역 기반 연결, 사실 추출, 답변 검증의 4단계 평가 프로토콜을 통해 각 단계를 독립적으로 감사하며, 총 1,124개의 질문과 273개의 문서로 구성됩니다.
실험 결과, 6개의 독점 모델, 12개의 오픈 웨이트 모델, 그리고 여러 도메인 특화 시스템을 벤치마킹한 결과, 정확한 답변만으로는 추론 경로 수준의 평가를 대체할 수 없으며, 영역 기반 연결이 가장 취약한 단계임을 확인했습니다.