연구진은 MoE 언어 모델의 일회성 전문가 가지치기를 위한 통일된 공식을 제시했어요. 이 공식은 라우팅 빈도, 게이트 가중치, 활성화 강도 세 가지 요소를 중심으로 구성돼요.
연구 결과, 작업에 구애받지 않는 가지치기는 라우팅 빈도와 게이트 가중치를 고려하지 않고 활성화 기반 기준으로 선택하는 것이 효과적이며, 작업 특정 가지치기는 라우팅 빈도와 게이트 가중치를 활용할 수 있어요.
Mean Activation Norm (MAN)과 Mean Squared Activation Norm (MSAN)이라는 새로운 작업에 구애받지 않는 기준을 제시하고, 다양한 모델과 벤치마크에서 기존 기준보다 성능을 향상시켰어요.