Gemma 4 MTP와 z-lab의 DFlash를 단일 H100 GPU에서 SPEED-Bench 데이터셋으로 벤치마크했습니다.
Gemma 4 31B 모델에서는 MTP와 DFlash 모두 기준 디코딩보다 3배 빠른 속도를 보였지만, 26B-A4B MoE 모델에서는 DFlash가 더 빠른 속도를 기록했습니다.
코딩, 수학, STEM, 추론과 같은 작업에서 속도 향상이 더 컸으며, 모든 벤치마크 설정과 스크립트는 GitHub 저장소에서 확인할 수 있습니다.