연구진이 LLM 가드레일 작동 원리를 파악하는 새로운 방법론을 제시했어요. HTTP, 어휘, 시간 신호 등 행동 패턴을 모니터링하여 가드레일 존재 여부를 100% 정확도로 판단해요. 가드레일과 LLM 거부 간의 차이를 구별하고, 가드레일이 어떤 콘텐츠를 차단하는지 파악할 수 있어요.
연구 결과, 악의적인 상호작용과 정상적인 상호작용 간에 통계적으로 유의미한 행동적 차이가 나타났어요 (q < 0.001). 이는 가드레일과 LLM 거부 방지 기술이 다르다는 점을 시사해요. 새로운 프롬프트에 대한 가드레일 차단과 LLM 거부 간의 구별 정확도는 평균 F1 점수가 98%에 달했어요.
이 방법론은 블랙박스 접근만으로 가드레일 존재를 감지하고, 공격 기법 선택 및 최적화에 중요한 정보를 제공하여 AI 보안 연구에 기여할 것으로 기대돼요.