연구진이 전체 파라미터의 약 5%만 활성화하는 극도로 희소한 디자인을 특징으로 하는 개방형 다국어 Mixture-of-Experts(MoE) 모델인 Marco-MoE를 발표했어요.
Marco-MoE는 영어 및 다국어 벤치마크에서 비슷한 크기의 경쟁 모델을 능가하며, 최고의 성능-컴퓨팅 비율을 달성했어요.
연구진은 Marco-MoE가 관련 언어 간에 공유되는 구조화된 전문가 활성화 패턴을 학습하며, 언어적으로 고립된 언어에 대해서는 높은 수준의 전문성을 유지하는 것을 확인했어요.