KVarN은 LLM 추론 시 KV 캐시 오류 누적 문제를 해결하는 새로운 양자화 방식입니다. Hadamard 회전과 이축 방향의 양자화 분산 정규화를 적용하여 부적절한 토큰 스케일 오류를 수정합니다. 2비트 정밀도에서 MATH500, AIME24, HumanEval 벤치마크에서 최고 성능을 달성했습니다.
기존 KV 캐시 양자화 방식은 프리필 설정에서 평가되어 오토레그레시브 디코딩 시 오류가 다르게 나타나는 한계가 있었습니다. KVarN은 이러한 문제를 해결하여 장기 디코딩 시 메모리 병목 현상을 완화합니다. vLLM에서 KVarN 구현체는 GitHub에서 제공됩니다.
KVarN은 교정 없이도 작동하며, 기존 방식 대비 오류 누적을 크게 줄입니다. 이 방식은 테스트 시간 스케일링을 통해 LLM의 추론 성능을 향상시키는 데 기여합니다.