LLM의 안전 정렬은 유해한 미세 조정(HFT)에 취약하며, 기존 방어는 지속적인 HFT에 의해 무력화될 수 있습니다. 연구진은 HFT 공격이 고차원 파라미터 공간의 과잉 적합성을 악용한 결과임을 밝혀냈습니다. Safety Bottleneck Regularization (SBR)은 unembedding 레이어를 활용하여 유해한 쿼리의 숨겨진 상태를 안전 정렬 모델의 상태에 고정하여 안전성을 강화합니다.