Pulse · AI 뉴스

MoE 모델, 추론 속도 향상을 위해 '추측 디코딩' 활용 시 주목할 점

Cohere · 2026-04-21

MoE(Mixture of Experts) 모델에서 추측 디코딩(Speculative Decoding, SD)을 활용할 때, 배치 크기에 따라 속도 향상 곡선이 변화하는 현상이 나타납니다. 이는 MoE 모델의 낮은 산술 강도가 만들어내는 독특한 현상으로, 배치 크기가 너무 크면 속도 향상 효과가 감소합니다.

연구에 따르면, 전문가 라우팅의 시간적 상관관계가 SD 검증 비용에 영향을 미치며, 배치 크기가 1일 때 나타나는 높은 속도 향상은 고정 오버헤드 상쇄 효과 때문인 것으로 분석되었습니다.

모델 희소성과 추측 디코딩을 공동 최적화하기 위한 설계 시사점을 제시하며, 목표 배치 크기에 따라 모델 희소성 비율과 라우팅된 전문가 대비 공유 전문가 비율을 조정해야 합니다.

##MoE##추측디코딩##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기