연구에 따르면 검색 증강 LLM은 증거 품질이 안전과 직결되는 작업에 사용되지만, 기존 평가 프로토콜은 단일 턴의 강건성이 증거가 누적될 때 강건성을 예측한다고 가정합니다.
모델은 상반되는 증거를 인정하지만, 이러한 인식이 최종 권장 사항을 제약하지 못하는 '모니터링-제어 격차' 현상을 보이며, 이는 50,000건 이상의 턴 레벨 평가에서 확인되었습니다.
연구 결과, 단일 턴 진단법은 RAG 안전성을 과대평가하며, 모순 인정과 안전한 해결 사이에는 상관관계가 없으며, 보편적인 프롬프트 수정법도 존재하지 않는 것으로 나타났습니다.