연구진은 LLM 안전 평가가 행동 수준에서만 이루어져 내부적인 강건성을 제대로 반영하지 못하는 '감사 격차'를 공식화했어요. 표현 수준의 취약성을 평가하기 위해 외관상 안전한 행동은 유지하면서 잠재 공간에서는 취약한 '분리 모델'을 구축했어요.
잠재 공간과 파라미터 공간에 미치는 영향을 평가하기 위해 유도 기반 평가 프레임워크를 도입하고, 유한한 잠재적 교란을 통해 유해한 행동을 얼마나 쉽게 유발할 수 있는지 측정하는 '잠재적 취약성 점수(LVS)'를 제안했어요.
연구 결과, 행동 안전성 지표만으로는 여러 최첨단 모델의 표현 수준 강건성을 측정하기에 부족하며, 분리 모델은 유해한 개입 하에 유사한 거부 행동을 보이더라도 LVS가 훨씬 높았고 중간 표현이 교란에 가장 민감했어요.