연구진은 Mixture-of-Experts (MoE) 모델의 전문가 가지치기 시 활용률과 같은 관찰 통계가 전문가의 실제 중요도를 예측하지 못한다는 것을 확인했어요.
OLMoE, Qwen1.5-MoE, DeepSeek-V2-Lite 모델에서 토큰 수준의 인과적 감사 결과, 어떤 관찰 지표도 통계적 유의성을 보이지 않았으며, 효과 크기는 Cohen’s d = 0.17 미만이었어요.
기존 가지치기 방법은 전문가의 중요도를 파악하는 것이 아니라, 초기 레이어의 과도한 중복성 때문에 대부분의 선택 기준이 상호 교환 가능하기 때문에 성공하는 것으로 나타났어요.