연구진은 LLM 에이전트의 지속적인 메모리에 악성 기록을 주입하는 공격에 대응하기 위해 MemAudit 프레임워크를 제안했어요.
MemAudit은 악성 출력에 대한 각 메모리의 인과적 기여도를 측정하는 '반사실적 메모리 영향 점수'와 메모리 저장소 내 구조적 이상을 식별하는 '메모리 일관성 그래프'를 결합해요.
MINJA 공격에 대한 평가 결과, MemAudit은 QA 공격 성공률을 70%에서 0%로, RAP 공격 성공률을 83.3%에서 0%로 크게 감소시켰어요.