연구진은 MoE 모델의 추론 속도 저하 문제를 해결하기 위해 EVICT라는 새로운 검증 기법을 제안했습니다. EVICT는 검증 대상 트리를 자르면서 비용 효율적인 부분만 유지하여 불필요한 전문가 활성화를 줄입니다. 실험 결과, EVICT는 기존 방식 대비 최대 2.35배 빠른 속도를 보였으며, EAGLE-3보다 평균 1.21배 빠른 속도를 달성했습니다.
EVICT는 학습 과정 없이 하이퍼파라미터 조절 없이 적용 가능하며, 검증 과정에서 데이터 손실을 발생시키지 않습니다. 트리의 각 분기에서 발생하는 신호를 활용하여 후보의 이점을 추정하고, 사전에 프로파일링된 검증 비용과 결합하여 효율적인 검증을 수행합니다.
EVICT는 SGLang과 같은 고성능 그래프 기반 서빙 프레임워크와 높은 호환성을 가지며, 다양한 MoE 모델과 벤치마크에서 성능 향상을 입증했습니다.