연구진은 LLM 런타임 오작동을 탐지하는 새로운 방법인 Layerwise Convergence Fingerprinting (LCF)을 소개했어요.
LCF는 모델을 재훈련하거나 참조 모델, 트리거 정보, 수정 가능한 가중치를 필요로 하지 않고, 계층 간의 은닉 상태 변화를 건강 신호로 활용해요.
LCF는 다양한 공격(백도어, 자이ల్브레이크, 프롬프트 인젝션)에 대해 높은 탐지율을 보이며, 12~16%의 오탐율과 0.1% 미만의 추론 오버헤드를 기록했어요.