새로운 소형 및 중간 규모 모델의 H100 GPU 활용 가능성을 알아보기 위해 vLLM 벤치마크를 진행했어요. Gemma 4 E2B-it 모델이 16명 동시 사용자 환경에서 3,180 TPS를 기록하며, 다른 모델들을 압도적인 성능으로 제쳤어요. FP8 양자화는 MoE 모델의 성능을 크게 향상시키며, 특히 H100에서 더 빠른 속도와 낮은 TTFT를 제공했어요.