KVarN은 새로운 KV 캐시 양자화 방식으로, 하다마드 회전과 변동성 정규화를 결합하여 양자화합니다. 디코딩 성능이 중요한 추론, 코드 생성, 에이전트 설정에서 3~4배 압축률을 보입니다. vLLM에서 fp16 기준 속도 향상 효과도 확인됐습니다.
양자화 오류의 원인 분석 결과, 토큰 스케일 문제를 해결하는 것이 중요하며, 큰 오류를 수정하는 것이 작은 오류를 수정하는 것보다 효과적입니다. KVarN은 이러한 분석을 바탕으로 개발됐습니다.
논문은 arXiv에 공개됐고, vLLM 구현체는 GitHub에서 확인할 수 있습니다.