Pulse · AI 뉴스

CoX-MoE: AMX 기반 CPU-GPU 협업으로 MoE 추론 처리량 극대화

CoX-MoE · 2026-05-18

연구진은 MoE(Mixture-of-Experts) 추론 시 GPU 메모리 압박 문제를 해결하기 위해 CoX-MoE 시스템을 제안했어요.

CoX-MoE는 AMX(Advanced Matrix Extensions)를 활용하여 CPU와 GPU 간 협업을 통해 전문가 실행을 통합하고, 워크로드 관리를 최적화했어요.

CoX-MoE는 기존 FlexGen, MoE-Lightning 대비 최대 7.1배, 2.4배 높은 처리량을 달성하며 MoE 추론 성능을 향상시켰어요.

##MoE##AMX##CPU-GPU##추론##최적화

매일 핵심 AI 소식을 한국어로, 빠르게