kNNGuard는 LLM의 숨겨진 활성화를 활용해 안전하지 않거나 악의적인 프롬프트를 탐지하는 학습 불필요 가드레일입니다. 50개의 안전/위험 프롬프트를 기반으로 활성화 공간과 임베딩 공간 점수를 융합하여 분류합니다. 6가지 영역에서 기존 가드레일보다 F1 점수가 높고 속도는 2.7배 빠릅니다.
kNNGuard는 새로운 영역에 적용할 때 몇 초 안에 레이블링된 프롬프트 집합을 업데이트하여 기존 가드레일보다 훨씬 빠르게 적응할 수 있습니다. 시스템 프롬프트, 레이어 선택, LLM 파이프라인 통합 등 다양한 요소를 분석했습니다.
기존 가드레일은 미세 조정에 의존하여 성능이 낮고 지연 시간이 길었지만, kNNGuard는 학습 없이 빠른 속도와 경쟁력 있는 성능을 제공하여 LLM 안전성 확보에 기여합니다.