연구진은 MoE 전문가 병목 현상 완화를 위한 기존 방식들이 가진 두 가지 가정을 검증하기 위해 DODOCO를 도입했어요.
결과적으로, routing 불균형은 시스템 레이어로 수정 가능하며, mock-token 벤치마크가 실제 routing을 잘 반영한다는 가정은 모두 실패했어요.
실제 데이터 환경에서는 전문가 간 토큰 비율 차이가 고유하게 발생하며, mock 토큰은 routing Gini 지니를 과대평가하고 batch size 의존성을 왜곡했어요.