Pulse · AI 뉴스

Gemma 4 26B, RTX 5090에서 DFlash 적용 시 600 토큰/초 달성

Gemma · 2026-05-08

사용자가 RTX 5090 GPU에서 vLLM을 사용하여 Gemma 4 26B 모델을 벤치마크했습니다.

DFlash 추론 방식을 적용하여 토큰 처리 속도를 228 토큰/초에서 578 토큰/초로 2.56배 향상시켰습니다.

최적의 DFlash 설정은 num_speculative_tokens=13, max_num_batched_tokens=8192이며, 이를 통해 평균 지연 시간을 줄였습니다.

##모델성능##vLLM##DFlash##Gemma
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기