Pulse · AI 뉴스

잠재적 적대적 탐지: 다중 턴 공격 탐지를 위한 LLM 활성화의 적응적 프로빙

arXiv cs.AI · 2026-05-01

연구진은 다중 턴 프롬프트 인젝션 공격이 모델의 잔류 스트림에서 고유한 활성화 패턴을 남긴다는 것을 발견했어요.

이 패턴, 즉 '적대적 불안정성'을 나타내는 5가지 특징을 활용하여 대화 수준의 탐지 정확도를 76.2%에서 93.8%로 향상시켰어요.

합성 데이터, LMSYS-Chat-1M, SafeDialBench 세 가지 소스를 결합하여 훈련하면 실제 환경에서도 89.4%의 탐지율과 2.4%의 오탐율을 달성할 수 있어요.

##LLM##보안##공격탐지##활성화##적대적탐지

매일 핵심 AI 소식을 한국어로, 빠르게