연구진은 LLM 에이전트의 지속적인 메모리 포이즈닝 공격 시 행동적 불변성을 발견했어요. 라우팅 정보가 관찰 가능한 메모리-도구 호출을 통해 검색되는 아키텍처에서 공격 성공은 `memory_recall_fact` 호출 후 `email_send_email` 호출을 필요로 해요.
이러한 전환은 정상적인 세션에서 드물게 나타나며, 이 불변성은 공격의 정보 검색 의존성에서 비롯된 것으로, 억제하면 공격이 실패해요. 이 불변성을 활용하는 간단한 규칙만으로도 AUC 0.9563을 달성했어요.
19개의 트래저토리 특징을 이용한 랜덤 포레스트 분류기를 사용하면 AUC를 0.9904(BCa 95% CI [0.987, 0.993])로 개선할 수 있어요. 이는 공격이 여러 독립적인 행동 채널에 흔적을 남긴다는 것을 보여줘요.
시그니처는 과잉 결정적이며, 리콜 관련 특징을 모두 제거해도 AUC는 0.990으로 변하지 않아요. 이는 메모리 포이즈닝이 단일 관찰 가능한 이상 현상이 아닌 분산된 트래저토리 시그니처를 유도한다는 것을 확인시켜줘요.