Pulse · AI 뉴스

H100에서 Qwen 3.6 27B, Qwen 3.6 35B A3B, Gemma 4 모델 성능 비교 분석

Gemma · 2026-04-25

새로운 소형 및 중간 규모 모델의 H100 GPU 활용 가능성을 알아보기 위해 vLLM 벤치마크를 진행했어요.

Gemma 4 E2B-it 모델이 16명 동시 사용자 환경에서 3,180 TPS를 기록하며, 다른 모델들을 압도적인 성능으로 제쳤어요.

FP8 양자화는 MoE 모델의 성능을 크게 향상시키며, 특히 H100에서 더 빠른 속도와 낮은 TTFT를 제공했어요.

##모델성능##벤치마크##Gemma##Qwen##H100

매일 핵심 AI 소식을 한국어로, 빠르게