연구진은 LLM 에이전트의 기억이 시간이 지남에 따라 안전성 문제를 야기할 수 있음을 밝혔습니다.
기존 안전 평가 방식은 단일 작업 내 안전성만 측정하지만, 실제 환경에서는 여러 작업에서 기억이 누적되며 영향을 미칩니다.
연구진은 '시간적 기억 오염'이라는 새로운 실패 모드를 제시하고, 이를 평가하기 위한 트리거-프로브 프로토콜을 개발했습니다.
실험 결과, 기억 기반 에이전트는 NullMemory 기준선을 지속적으로 초과했으며, 기억 노출 시간이 길어질수록 안전성 위반율이 증가하는 경향을 보였습니다.