연구진은 모델이 정답을 맞혔더라도 다이어그램의 어떤 부분을 참고했는지 알 수 없는 문제점을 지적하며, 시각적 증거 기반 추론을 평가하는 벤치마크 DRAGON을 발표했어요.
DRAGON은 다이어그램, 질문, 정답과 함께 모델이 정답을 뒷받침하는 시각적 요소를 예측하도록 설계되었으며, ChartQA, Circuit-VQA 등 6개의 데이터셋에서 수집된 11,664개의 질문 인스턴스를 포함해요.
8개의 최신 VLMs를 평가한 결과, DRAGON은 다이어그램 추론 능력을 체계적으로 평가하고 시각적 증거 기반 예측을 가능하게 하는 모델 연구를 지원할 수 있을 것으로 기대돼요.