연구팀은 다중 출처 RAG 시스템이 출처에 따라 다른 답변을 내놓는 현상(출처 의존성)을 발견했어요. 기존의 단일 정답 평가 방식으로는 진단하기 어려운 문제점이에요. 이 문제를 해결하기 위해 연구팀은 환자 교육 분야에서 출처 간 의견 불일치를 측정하는 벤치마크와 평가 도구를 개발했어요.
TransplantQA 벤치마크는 실제 환자 질문에 대해 여러 기관의 핸드북을 기반으로 답변을 생성하고, HERO-QA 전략을 통해 답변의 출처 관계를 감사해요. 연구 결과, 대규모 데이터에서 출처 간 불일치가 예상보다 훨씬 많다는 사실이 밝혀졌어요.