연구팀은 GLM 4.7 Flash 모델에 적용된 다양한 안전성 우회 기술(Abliteration)을 분석하여 Heretic 방식이 가장 효과적임을 확인했어요. HauhauCS 방식은 '손실 없는' 주장이 사실과 다름이 드러났고, 모델의 추론 효율성이 저하되는 것을 확인했어요.
안전성 우회 기술 적용 후에도 모델은 여전히 안전 관련 생각을 하는 과정이 남아있으며, HauhauCS 방식은 안전 관련 거부 표현을 자주 사용하는 것으로 나타났어요. 이는 안전성 우회 기술이 사고 과정 자체를 제거하는 것이 아니라, 사고와 결과 연결을 끊는 방식임을 시사해요.
연구팀은 KL Divergence 분석을 통해 각 기술이 베이스 모델과 얼마나 유사한지 평가했는데, Heretic 방식이 가장 낮은 KL 값을 보여 가장 유사한 결과를 나타냈고, Abliterix 방식은 가장 높은 KL 값을 기록하며 가장 큰 차이를 보였어요.