연구진은 의료 시각 질의응답(VQA)에서 동일한 VLM을 재사용하여 답변을 검증하는 자기 검증 방식의 신뢰성이 낮다고 주장합니다. 새로운 프레임워크 [METHOD NAME]을 통해 검증자의 행동을 분해하여 검증 환영 현상(높은 검증 오류와 높은 동의 편향)을 분석했습니다. 실험 결과, 지식 집약적인 임상 작업에서 검증 환영 현상이 심화되며, 다중 턴 검증 과정에서 초기 오류가 고착화되는 경향을 보였습니다.