사용자가 AAVE(아프리카계 미국인 방언) 프롬프트가 MoE(Mixture of Experts) 언어 모델의 안전 관련 상황에서 다른 반응을 유도하는지 테스트했습니다.
Qwen3.5-35B-A3B 모델과 거부 레이어를 제거한 HauhauCS 변형 모델을 비교한 결과, AAVE 프롬프트에 대한 위험한 답변을 제공하는 문제가 발견되었습니다.
연구 결과, 거부 레이어가 제거되면 방언에 따른 라우팅 차이가 드러나며, 이는 잠재적인 안전 문제를 야기할 수 있습니다.