연구진은 MoE 모델 훈련 시 발생하는 메모리 부족, 통신 지연, 워크로드 불균형 문제를 분석하고, 이를 해결하기 위한 프레임워크 Piper를 개발했어요.
Piper는 자원 모델링을 통해 HPC 플랫폼에 최적화된 훈련 전략을 적용하고, 파이프라인 병렬 처리 방식을 사용해서 기존 방식보다 최대 3.5배 빠른 MFU를 달성했어요.
새로운 all-to-all 알고리즘은 기존 방식 대비 최대 9배 빠른 대역폭을 제공하며, MoE 모델 훈련 효율성을 크게 향상시킬 것으로 기대돼요.