Pulse · AI 뉴스

KVarN을 Llama.cpp에 적용하여 KLD 벤치마크를 실행했습니다. 유망합니다!

Llama · 2026-06-05

Huawei에서 공개한 KV 캐시 양자화 방식 KVarN을 Llama.cpp 포크에 적용하여 성능을 테스트했어요.

KVarN은 기존 방식보다 KV 캐시 압축률이 3~5배 높고 추론 속도 저하 없이 성능을 유지하며, Qwen 3.6 27B와 Gemma 4 31B에서 효과를 보였어요.

KLD 벤치마크 결과, KVarN은 q5 품질을 4비트에서, q4 품질을 3.5비트에서 제공하며, 기존 방식보다 우수한 성능을 보여줬어요.

##KVarN##llama.cpp##KLD

매일 핵심 AI 소식을 한국어로, 빠르게