Huawei에서 공개한 KV 캐시 양자화 방식 KVarN을 Llama.cpp 포크에 적용하여 성능을 테스트했어요. KVarN은 기존 방식보다 KV 캐시 압축률이 3~5배 높고 추론 속도 저하 없이 성능을 유지하며, Qwen 3.6 27B와 Gemma 4 31B에서 효과를 보였어요. KLD 벤치마크 결과, KVarN은 q5 품질을 4비트에서, q4 품질을 3.5비트에서 제공하며, 기존 방식보다 우수한 성능을 보여줬어요.