연구진은 디퓨전 LLM(dLLM)과 MoE 아키텍처의 불일치를 해결하는 dMoE 프레임워크를 제안했어요. dMoE는 블록 내 토큰 전문가 분포를 통합하여 일관성 있는 전문가 라우팅을 유도하여 활성화되는 전문가 수를 줄여요. 실험 결과, dMoE는 활성화 전문가 수를 69.5개에서 14.6개로 줄이고 메모리 사용량을 최대 79.84% 감소시키며 속도를 1.66배 향상시켰어요.