Mixture of Experts(MoE)는 기존의 밀집 모델을 대체하여 컴퓨팅 효율성을 높이는 기술로, 특정 토큰을 처리할 소수의 전문가를 선택하여 사용합니다.
MoE 모델은 총 파라미터 수는 많지만, 활성 파라미터 수를 줄여 추론 속도를 향상시키며, DeepSeek R1, Qwen 3.5, MiniMax M2 등 다양한 모델에 적용되고 있습니다.
트랜스포머 라이브러리는 MoE 모델의 로딩 파이프라인, 실행 모델, 분산 추상화를 재설계하여 MoE를 지원하며, 전문가 백엔드, 전문가 병렬 처리, MoE 학습 등 다양한 개선 작업을 진행했습니다.