Mixture-of-Experts (MoE) 언어 모델은 각 토큰을 전문가 하위 집합으로 라우팅하지만, 라우팅 결정이 얼마나 좋은지는 잘 평가되지 않았습니다. 연구진은 모델을 고정하고 표준 라우팅 경로와 동일한 컴퓨팅 자원을 사용한 대체 경로를 비교했습니다.
표준 라우터는 확신이 있는 토큰에서는 유용하지만, 어려운 추론을 이끄는 취약한 토큰에서는 유용하지 않으며, 이 경우 더 낮은 손실을 가진 대체 경로가 존재합니다.
Qwen3-30B-A3B, GPT-OSS-20B, DeepSeek-V2-Lite, OLMoE-1B-7B 모델에서 동일한 패턴이 나타났으며, 라우터 업데이트만으로 AIME 2024+2025 및 HMMT 2025에서 pass@K를 향상시킬 수 있었습니다.