연구진은 MoE(Mixture-of-Experts) 추론 시 GPU 메모리 압박 문제를 해결하기 위해 CoX-MoE 시스템을 제안했어요.
CoX-MoE는 AMX(Advanced Matrix Extensions)를 활용하여 CPU와 GPU 간 협업을 통해 전문가 실행을 통합하고, 워크로드 관리를 최적화했어요.
CoX-MoE는 기존 FlexGen, MoE-Lightning 대비 최대 7.1배, 2.4배 높은 처리량을 달성하며 MoE 추론 성능을 향상시켰어요.