연구진은 온디바이스 환경에서 MoE(Mixture of Experts) 모델의 장점을 활용하기 위해 MobileMoE를 개발했어요. MobileMoE는 0.3~0.9B 활성 파라미터, 1.3~5.3B 총 파라미터로 구성된 온디바이스 MoE 언어 모델 패밀리예요.
MobileMoE는 기존 온디바이스 LLM 대비 2~4배 적은 추론 FLOPs으로 동일하거나 더 높은 성능을 보여주며, OLMoE-1B-7B 모델보다 최대 60% 적은 파라미터로 우수한 성능을 낼 수 있어요.
MobileMoE는 스마트폰에서 효율적인 MoE 추론을 제공하며, INT4 가중치 메모리 기준 MobileLLM-Pro 대비 최대 3.8배 빠른 디코딩 성능을 보여줘요.