IvGranite 사용자가 AMD 7900 XTX에서 Gemma 4 QAT 벤치마크를 진행했어요. QAT 모델은 기존 모델 대비 더 빠른 속도와 낮은 VRAM 사용량을 보여줬어요. 특히 12B QAT 모델은 생성 시간을 45% 단축하고, VRAM을 5.7GB 절약했어요.
QAT 모델은 다양한 크기에서 1.3~1.5배 빠른 속도를 보였으며, 창의적인 콘텐츠 생성 시 더 많은 양의 텍스트를 생성했어요. 품질 저하 없이 성능 향상을 이룬 점이 주목할 만해요.
이번 테스트는 llama-swap 환경에서 진행되었으며, 원본 출력 결과(~170KB markdown)를 GitHub에서 확인할 수 있어요.