Google이 Gemma 4 모델의 QAT(Quantization-Aware Training) 버전을 공개했어요. 12GB GPU에서 120 tok/s의 속도를 달성할 수 있는 결과를 확인했습니다.
llama.cpp를 활용해 Gemma 4 12B IT QAT 모델을 GGUF 형식으로 변환하고 Hugging Face에 업로드했어요. 이를 통해 mtp-bench.py에서 120 tok/s의 성능을 기록했습니다.
RTX 4070 Super 12GB GPU 환경에서 CachyOS를 사용하고 dGPU를 보조 GPU로 설정하여 VRAM을 최대한 활용했어요. Windows 환경에서는 VRAM 사용량이 줄어들 수 있으므로 컨텍스트 크기를 낮춰야 할 수도 있습니다.