연구진은 안전 정렬이 일반적인 LLM 성능 저하를 야기한다는 점에 주목하여, SafeSteer라는 새로운 방법을 제안했어요. SafeSteer는 안전 관련 토큰에만 제한된 온폴리시 증류를 수행하여 일반적인 성능 저하를 최소화하고 안전성을 향상시켰어요. 실험 결과, SafeSteer는 기존 방법보다 안전성과 일반적인 성능 간의 균형이 뛰어나며, 100개의 유해 샘플만으로도 효과적인 안전 정렬이 가능했어요.