연구진은 LLM의 안전 정렬을 위해 데이터 필터링이나 재작성 외에 모델이 안전하지 않은 행동을 할 수 있는 근본적인 원인을 해결해야 한다고 주장했어요.
Safety Reflection Pretraining은 사전 훈련 과정에 짧은 안전 반성을 주기적으로 삽입하여 모델이 스스로 위험을 감지하고 수정하는 능력을 키우는 방법이에요.
FineWeb-Edu 데이터셋으로 훈련한 1.7B 모델 실험 결과, Safety Reflection Pretraining은 안전 분류 정확도를 높이고 공격 성공률을 크게 줄였어요.
연구진은 MedSafetyWorld라는 합성 환경에서 실험을 진행하여 데이터 필터링이나 재작성 방식보다 Safety Reflection Pretraining이 안전하지 않은 행동을 방지하는 데 더 효과적임을 입증했어요.