Gemma 4와 Qwen 3.6 모델을 q8_0 및 q4_0 KV 캐시로 실행했을 때의 KL 발산 결과를 분석한 내용이에요. KL 발산은 모델의 예측 분포와 실제 분포 간의 차이를 측정하는 지표로, 낮은 수치가 더 좋은 성능을 의미해요. 이번 실험은 양자화된 모델의 성능을 평가하고, KV 캐시 설정이 모델의 정확도에 미치는 영향을 파악하는 데 목적이 있어요.