연구진은 RAG 시스템의 구조가 지식 기반 오염 공격에 얼마나 취약한지 분석했습니다. 4가지 RAG 아키텍처(순차 RAG, 에이전트 RAG, MADAM-RAG, 순환 언어 모델)를 평가한 결과, 순환 언어 모델이 공격 성공률이 가장 낮았습니다 (24.4%).
순환 언어 모델은 공격자가 조작한 정보를 판단하는 능력(신뢰도 평가)을 목표로 하는 CorruptRAG-AK 공격에 대해 81.9%의 공격 성공률을 보인 순차 RAG보다 훨씬 강했습니다.
연구진은 MADAM-RAG의 구현을 재현했으며, 7가지 행동 분류 체계를 도입하여 모순 감지, 회피, 실패 모드를 분석했습니다. 연구 결과는 코드, 데이터, 분석 노트북과 함께 공개되었습니다.