연구진은 안전 장벽이 있는 언어 모델을 양성 작업으로 미세 조정하면 유해한 콘텐츠가 없는 훈련 데이터에서도 안전 장벽이 깨지는 현상을 발견했어요.
새로운 프레임워크인 Alignment Instability Condition (AIC)을 통해 미세 조정 시 안전 장벽이 약화되는 조건을 공식화하고, 기울기 흐름 경로에서 안전 장벽이 급격하게 악화되는 현상을 입증했어요.
Fisher Information Matrix가 안전 악화 정도를 나타내는 지표로 활용될 수 있음을 실험적으로 검증했으며, 이는 정적 첫 번째 차수 보호가 기울기 하강 시 실패할 수 있음을 보여줘요.