연구진은 다중 턴 프롬프트 인젝션 공격이 모델의 잔류 스트림에서 고유한 활성화 패턴을 남긴다는 것을 발견했어요. 이 패턴, 즉 '적대적 불안정성'을 나타내는 5가지 특징을 활용하여 대화 수준의 탐지 정확도를 76.2%에서 93.8%로 향상시켰어요. 합성 데이터, LMSYS-Chat-1M, SafeDialBench 세 가지 소스를 결합하여 훈련하면 실제 환경에서도 89.4%의 탐지율과 2.4%의 오탐율을 달성할 수 있어요.