연구진이 MoE 모델을 메모리 제약 없이 배포할 수 있도록 Dense 모델로 변환하는 새로운 프레임워크를 개발했어요. 이 프레임워크는 전문가를 평가하고 그룹화하여 Dense FFN으로 변환한 후 지식 증류를 통해 성능을 개선해요.
Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B 모델에서 다양성을 고려한 새로운 평가 방법이 기존 방법보다 우수한 성능을 보였어요.
MoE-to-dense 방식은 기존 Dense 모델 pruning 방식보다 평균 다운스트림 정확도가 6.3%p 향상되었고, 학습 속도는 1.6배 더 빨랐어요.