화웨이가 KV 캐시 압축 기술 KVarN을 오픈 소스로 공개했어요. 기존 TurboQuant 방식보다 더 빠른 속도를 제공하면서도 추론 성능 저하 없이 3~5배 더 많은 컨텍스트를 처리할 수 있어요.
KVarN은 FP8 방식 대비 3~5배 더 많은 컨텍스트를 지원하며, FP16 수준의 출력 품질을 유지하면서 최대 1.4배 빠른 처리 속도를 제공해요.
vLLM에 단일 플래그만으로 적용 가능하며, TurboQuant 방식보다 높은 정확도를 유지하면서도 압축률은 기존 방식과 비슷하거나 더 높아요.