Pulse · AI 뉴스

Qwen3.6-35B-A3B 모델의 Norm-preserving abliteration 적용: 거부율 0%, 벤치마크 유지, 데이터셋 및 가중치 공개

Qwen · 2026-06-30

연구자가 Qwen3.6-35B-A3B 모델에 norm-preserving abliteration 기법을 적용해 거부율을 0%로 만들고 벤치마크 성능을 유지했어요. 이 기법은 유해한 활성화 캐시 차이를 기반으로 거부 방향을 제거하고, 가중치 행렬을 원본 L2 노름으로 재조정하는 방식이에요. 연구자는 MoE 모델의 하이브리드 어텐션과 3D 전문가 텐서에 대한 추가적인 고려 사항을 강조하며, 향상된 유해 데이터셋도 함께 공개했어요.

기존 abliteration 기법은 벤치마크 성능 저하를 야기했지만, norm-preserving biprojection 기법을 통해 이 문제를 해결할 수 있었어요. 연구자는 이 기법을 적용하면서, 모델의 거부 메커니즘을 더 정확하게 추출하고, 모델의 성능을 유지할 수 있었음을 확인했어요.

연구자는 Qwen3.6-35B-A3B 모델의 abliterated 버전, GGUF 양자화 버전, 그리고 향상된 유해 데이터셋을 오픈 소스로 공개했어요. 자세한 내용은 GitHub 저장소에서 확인할 수 있으며, 거부 메커니즘의 기하학적 구조를 시각화한 자료도 함께 제공돼요.

##Qwen##MoE##Abliteration##거부율##오픈소스

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기