연구진은 최첨단 언어 및 비전 모델에 널리 사용되는 희소 Mixture-of-Experts (SMoE) 구조의 불연속성을 분석했어요.
Top-$k$ 전문가 선택으로 인한 불연속성 표면 근처에서 입력이 유사해도 다른 전문가 집합이 활성화되어 출력이 크게 달라질 수 있어요.
연구 결과, 낮은 차수의 불연속성 집합이 우세하며, 입력은 낮은 차수의 불연속성 근처에 있을 가능성이 높고, 이를 완화하는 간단한 smoothing 기법을 제안하여 성능을 향상시켰어요.