Pulse · AI 뉴스

Qwen3.6-27B 모델 기반 5가지 abliteration 기법 비교 분석: 벤치마크, 안전성, 가중치 포렌식

Qwen · 2026-05-17

연구자가 Qwen3.6-27B 모델에 적용된 5가지 abliteration 기법을 비교 분석한 결과를 공개했어요. Heretic와 Huihui 기법이 성능 보존에 가장 유리했고, AEON은 '향상된 기능' 주장이 데이터와 일치하지 않는다는 결과가 나왔어요.

HauhauCS 기법은 다른 기법에 비해 변경된 가중치가 월등히 많았으며, 이는 Reaper Abliteration 도구의 표절 및 GGUF 양자화 과정에서 발생하는 노이즈 때문으로 분석되었어요. 따라서 HauhauCS 기법은 향후 비교 분석에서 제외될 예정이에요.

5가지 기법 모두 안전성 제거에 거의 성공했으며, HarmBench 평가 결과 CoT(Chain-of-Thought) 추론 예산 소진 여부에 따라 ASR(Answer Success Rate) 결과가 달라질 수 있다는 점을 지적했어요. KL divergence 분석 결과, 모든 기법이 안전성 손상 기준치를 훨씬 밑도는 수준을 보였어요.

##모델출시##Qwen3.6##abliteration##안전성##가중치포렌식

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기