연구진은 LLM 가드레일 분류기의 형식적 보증을 제공하는 방법을 제시하며, 기존 레드팀 테스트의 한계를 지적했어요. 가드레일 분류기의 안전성을 검증하기 위해, 연구진은 입력 공간 대신 사전 활성화 공간에서 유해 영역을 정의하고, 시그모이드 함수를 활용한 형식적 증명을 개발했어요. BERT 모델의 경우, 안전성 보증을 위해 매우 보수적인 임계값을 적용해야 하며, 이는 안전 마진이 부족하다는 것을 보여줘요.