연구진은 LLM 추론 효율성 문제를 해결하기 위해 Mixture of Experts(MoE) 변환 프레임워크 DOT-MoE를 제안했어요. DOT-MoE는 Differentiable Optimal Transport(DOT) 문제를 활용하여 Dense Layer를 분해하고, Neuron-to-Expert Assignment를 학습해요.
기존 Heuristic 기반 방법 대비 90%의 성능을 유지하면서 활성 파라미터를 50% 줄이는 성과를 거둬요. Straight-Through Estimators(STE)를 활용하여 Neuron-to-Expert Assignment와 Token-to-Expert Routing Policy를 동시에 학습해요.
다양한 아키텍처와 벤치마크 실험에서 Structured Pruning, Heuristic Clustering, Random-Split 기반 방법보다 뛰어난 성능을 보였어요.