연구자가 Qwen 3/3.5 모델에 Heretic, HauhauCS, Huihui 세 가지 '절멸(Abliteration)' 기법을 적용하여 벤치마크 테스트를 진행하고, 그 결과를 공개했습니다. 이 연구는 모델의 안전성, 성능, 가중치 분석 등을 종합적으로 평가했습니다.
연구 결과, 모델 크기가 커질수록 절멸 기법 적용 시 성능 저하가 두드러지게 나타났으며, 특히 Huihui 기법은 특정 모델에서 심각한 성능 문제를 야기했습니다. Heretic 기법은 전반적으로 가장 일관된 성능을 보였습니다.
HauhauCS 기법은 Mamba2 구조에 특화된 수정 작업을 수행하며, Qwen3-4B 모델에서 Heretic 기법과 유사한 수정 방향을 보이는 것으로 나타났습니다. 연구자는 이 결과를 바탕으로 모델의 '무손실' 주장에 대한 의문을 제기했습니다.