Qwen3.6-27B 모델에서 KV 캐시 양자화 테스트를 진행한 결과, Q4_0 양자화는 F16과 거의 동일한 성능을 보이며 VRAM 절약 효과를 냈어요.
Turbo3 양자화는 200k 컨텍스트 윈도우를 3090 그래픽 카드 하나로 처리 가능했지만, PPL 점수가 약간 증가했어요.
MoE(Mixture of Experts) 모델은 Turbo3 양자화 시 불안정성을 보였으며, 27B 이상의 고밀도 모델에서 Q4 양자화가 안전하고 효과적이라는 점을 확인했어요.