연구진은 모델 방어 기법들이 고정된 공격에만 강하며, 적응형 공격에는 취약하다는 점을 밝혔습니다. 15개의 방어 기법을 분석한 결과, 대부분 유해한 행동 자체를 제거하지 못하고 경로를 숨기거나 잘못 인도한다는 공통된 약점을 가지고 있습니다. 새로운 적응형 공격 기법을 개발하여 기존 방어 기법들을 모두 무력화하는 데 성공했습니다.
기존 방어 기법들은 설계된 공격을 막는 데 그치며, 진정한 의미의 강력한 보안을 제공하지 못합니다. 연구진은 개발한 적응형 공격 기법을 통해 향후 방어 기법 개발에 기여하고자 합니다.
모델 제공업체는 모델을 안전하게 정렬한 후에도 악의적인 파인튜닝으로 안전장치를 제거할 수 있다는 점을 인지해야 합니다.