사용자가 Gemma 4 26B 모델을 파인튜닝했지만, 추론 지연이 예상보다 높게 나타나 어려움을 겪고 있습니다. TTFT는 100~300ms로 괜찮지만, E2E 지연은 3~5초로 큰 편입니다. vLLM의 n-gram speculative decoding을 시도했지만 큰 효과를 보지 못했습니다.
EAGLE, Medusa 방식의 speculative decoding이나, 더 작은 Gemma draft 모델 훈련을 고려 중이며, 관련 경험이나 벤치마크 공유를 요청했습니다. 다른 사용자의 경험 공유를 통해 문제 해결에 도움을 얻고자 합니다.
H100 GPU 환경에서 FP8 양자화로 추론하지만, 효과적인 추론 크기가 4B 정도임에도 불구하고 높은 지연이 발생하는 원인을 파악하고 싶어합니다.