사용자가 RTX 5090 GPU에서 vLLM을 사용하여 Gemma 4 26B 모델을 벤치마크했습니다. DFlash 추론 방식을 적용하여 토큰 처리 속도를 228 토큰/초에서 578 토큰/초로 2.56배 향상시켰습니다. 최적의 DFlash 설정은 num_speculative_tokens=13, max_num_batched_tokens=8192이며, 이를 통해 평균 지연 시간을 줄였습니다.