연구진은 MoE 모델의 병목 현상 완화를 위해 GPU 변동성을 고려한 전문가-GPU 매핑 프레임워크 GEM을 제안했어요. GEM은 GPU의 변동성 프로필과 토큰 로드 분포를 활용하여 일관성 및 시간적 전문가를 서로 다른 GPU에 배치하여 성능을 최적화해요.
GEM은 동시에 사용되는 일관성 및 시간적 전문가를 느린 GPU에 배치하지 않도록 하여 병목 현상을 줄이고, 평균 7.9%의 엔드투엔드 지연 시간 개선 효과를 보여줬어요.
기존 방식은 GPU 변동성을 고려하지 않아 성능 저하를 야기했지만, GEM은 GPU 변동성 프로필과 토큰 로드 분포를 활용하여 최대 16.5%까지 지연 시간을 줄일 수 있었어요.