BeeLlama v0.1.2를 활용한 KV 캐시 양자화 벤치마크 결과, PPL은 꼬리 부분의 성능 저하를 숨기는 반면 KLD는 이를 드러냅니다.
TurboQuant는 2~3비트에서 유용하며, 4비트에서는 q4_0와 거의 차이가 없으며 메모리 절약 효과도 미미합니다. TCQ (TurboQuant Compression)는 저압축 환경에서 유용한 솔루션입니다.
q5_0은 q4_0에 비해 메모리 사용량은 비슷하지만, 99.9% 정밀도에서 더 나은 성능을 보여주며, 모델과 KV 캐시 양자화는 독립적이지 않아 균형이 중요합니다.