Gemma 4 QAT 모델이 KV 캐시 양자화에 민감하다는 불만이 있었으나, Q8_0 양자화 방식이 다시 고려될 수 있는 가능성이 생겼어요. KL Divergence 측정 결과, 16k 컨텍스트 환경에서 99.9%의 KLD 값을 보여 양자화가 모델 성능에 미치는 영향이 적은 것으로 나타났어요. 31B 모델 테스트를 위한 하드웨어가 부족하여, 다른 사용자의 참여를 기다리고 있습니다.