Pulse · AI 뉴스

Qwen3.6-35B-A3B 모델, 유해 프롬프트 거부율 0% 유지하며 벤치마크 성능 온전: 오픈 소스 데이터셋 공개

Qwen · 2026-06-30

연구자가 Qwen3.6-35B-A3B 모델의 유해 프롬프트 거부 성능을 개선하는 'Norm-preserving abliteration' 기법을 적용했어요. 이 기법은 기존 방식의 벤치마크 성능 저하 문제를 해결하고, 유해 프롬프트에 대한 거부율을 0%로 유지하면서도 벤치마크 성능을 온전하게 유지해요.

연구자는 유해 프롬프트 데이터셋을 다양하게 구성하여 실제 거부 메커니즘을 정확하게 추출하고, 모델의 하이브리드 어텐션과 3D 전문가 텐서 구조를 고려하여 기법을 구현했어요.

개선된 모델과 데이터셋은 오픈 소스로 공개되었으며 이 연구는 LLM의 유해 콘텐츠 거부 메커니즘 이해에 기여할 것으로 보입니다.

##Qwen##모델출시##안전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기