연구진이 메모리 제약 환경에서 MoE LLM 추론 성능을 향상시키는 ReMoE 프레임워크를 제안했어요. ReMoE는 라우터 미세 조정을 통해 최근 사용된 전문가를 우선적으로 선택하여 캐시 적중률을 높여요.
DeepSeek 및 Qwen 모델 실험 결과, ReMoE는 전문가 재사용률을 26% 향상시키고, downstream 작업 성능은 유지했어요.
실제 시스템 평가에서 vLLM GPU-CPU 전문가 오프로딩 시 처리량 8.4% 향상, llama.cpp에서 TPOT 43.6~49.8% 감소, 최대 1.99배 디코딩 속도 향상 효과를 확인했어요.