연구진은 기존 MoE 모델의 용량을 늘리면서 추론 비용을 증가시키지 않는 '전문가 업사이클링'이라는 새로운 방법을 제시했어요. 새로운 방법은 기존 전문가를 복제하고 라우터에 작은 편향 노이즈를 추가하여 7B 모델을 13B 모델로 확장하며, GPU 사용 시간을 약 32% 절감했어요. 연구 결과, 업사이클링된 모델은 검증 손실과 평균 정확도가 기존 모델과 유사한 성능을 보였으며, 256 전문가까지 확장 가능성을 확인했어요.