연구진은 정렬된 LLM을 탈옥시키는 유창한 최적화 기반 적대적 접미사를 탐지하는 새로운 방법인 CPD Online을 개발했습니다. 이 방법은 토큰 수준의 다음 토큰 엔트로피 스트림에 대한 온라인 변화점 탐지 문제로 간주합니다.
CPD Online은 모델에 종속되지 않고 학습 없이 온라인으로 실행되며, 적대적 접미사의 시작점을 찾아내는 방식으로, LLaMA-2-7B에서 AUROC 0.88, F1 0.82의 성능을 달성했습니다.
CPD Online은 LLaMA Guard 게이트를 사용할 때 가드 호출 횟수를 17~22% 줄이면서도 가드 수준의 탐지 품질을 유지하여 경량 게이트로 활용될 수 있습니다.