Pulse · AI 뉴스

Gemma 4 12B QAT 모델, 12GB GPU에서 120 tok/s 달성

Gemma · 2026-06-07

Google이 Gemma 4 모델의 QAT(Quantization-Aware Training) 버전을 공개했어요. 12GB GPU에서 120 tok/s의 속도를 달성할 수 있는 결과를 확인했습니다.

llama.cpp를 활용해 Gemma 4 12B IT QAT 모델을 GGUF 형식으로 변환하고 Hugging Face에 업로드했어요. 이를 통해 mtp-bench.py에서 120 tok/s의 성능을 기록했습니다.

RTX 4070 Super 12GB GPU 환경에서 CachyOS를 사용하고 dGPU를 보조 GPU로 설정하여 VRAM을 최대한 활용했어요. Windows 환경에서는 VRAM 사용량이 줄어들 수 있으므로 컨텍스트 크기를 낮춰야 할 수도 있습니다.

##Gemma##QAT##llama.cpp##GPU##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기