Pulse · AI 뉴스

KVarN: KV 캐시 양자화 방식, 변동성 정규화 적용

KVarN · 2026-06-04

KVarN은 새로운 KV 캐시 양자화 방식으로, 하다마드 회전과 변동성 정규화를 결합하여 양자화합니다. 디코딩 성능이 중요한 추론, 코드 생성, 에이전트 설정에서 3~4배 압축률을 보입니다. vLLM에서 fp16 기준 속도 향상 효과도 확인됐습니다.

양자화 오류의 원인 분석 결과, 토큰 스케일 문제를 해결하는 것이 중요하며, 큰 오류를 수정하는 것이 작은 오류를 수정하는 것보다 효과적입니다. KVarN은 이러한 분석을 바탕으로 개발됐습니다.

논문은 arXiv에 공개됐고, vLLM 구현체는 GitHub에서 확인할 수 있습니다.

##양자화##KV캐시##vLLM##KVarN

매일 핵심 AI 소식을 한국어로, 빠르게