연구진은 Mixture-of-Experts(MoE) 모델의 핵심 구성 요소인 라우터의 성능을 개선하기 위해 새로운 설계 방안을 제시했어요. 기존 라우터는 토큰과 전문가 간의 친화도를 반영해야 하지만, 이를 위한 명확한 설계 원칙이 없다는 문제점을 해결하고자 했어요. Manifold Power Iteration(MPI)을 활용하여 라우터 행을 전문가의 주성분 방향으로 정렬하는 방식으로, 모델 성능 향상을 확인했어요.
MPI는 라우터 가중치에 대해 파워 반복 단계를 수행한 후, 효율성과 안정성을 확보하기 위해 정규화 제약 조건을 부과하는 '파워-리트랙트' 패러다임을 도입했어요. 이론적으로 MPI는 라우터 행을 관련 전문가의 주성분 방향으로 수렴하도록 유도하며, 실험적으로 10억~110억 파라미터 규모의 MoE 모델에서 효과적인 성능을 보였어요.
본 연구는 MoE 모델의 효율성을 높이는 데 기여할 수 있는 새로운 라우터 설계 방안을 제시하며, 향후 MoE 모델 연구에 중요한 시사점을 제공할 것으로 기대돼요.