ProvenanceGuard는 LLM 에이전트가 사용하는 모델 컨텍스트 프로토콜(MCP) 기반 답변의 출처 기반 사실성 검증 도구입니다. 다양한 출처에서 수집한 증거를 기반으로 답변하는 과정에서 발생할 수 있는 출처 혼동 문제를 해결합니다.
ProvenanceGuard는 MCP 추적 정보, 도구 ID, 출처 ID, 원시 출력을 분석하여 답변을 분해하고, 각 주장을 해당 출처의 증거와 연결하여 검증합니다. NLI와 토큰 정렬을 활용하여 주장의 지원 여부와 출처의 일치성을 확인합니다.
의료 분야 MCP 에이전트 281개 추적에 대한 평가 결과, ProvenanceGuard는 출처를 고려하지 않은 기존 방법보다 높은 성능(block F1 0.802, 출처 정확도 0.858)을 보였습니다.
ProvenanceGuard는 차단된 답변을 수정 및 재검증하여 모든 답변을 해결할 수 있으며, 의도적으로 삽입된 출처 교체 오류를 100% 탐지했습니다.