대규모 언어 모델(LLM)은 특히 화학, 생물, 방사능, 핵(CBRN) 분야에서 적응형 탈옥 공격에 점점 더 노출되고 있습니다. 연구진은 새로운 스트리밍 프로빙 목표를 도입하여 여러 증거 토큰이 예측을 지속적으로 뒷받침하도록 하여, 단일 토큰 신호에 의존하는 기존 방법의 오류를 개선했습니다. 기존 LLM에 대한 프로브를 개발하면 문자 수준 암호화 공격에도 적용 가능하며, 98.85% 이상의 AUROC를 달성할 수 있습니다.