연구에 따르면 --kv-cache-dtype fp8 옵션이 KV 캐시 양자화에 가장 적합하며, 정확도 손실은 미미하면서 성능은 BF16과 비슷하거나 향상됩니다. TurboQuant k8v4는 FP8보다 큰 이점을 제공하지 못하며, 처리량과 지연 시간 지표에 부정적인 영향을 미칩니다. TurboQuant 4bit-nc는 메모리 제약이 있는 엣지 배포에 적합할 수 있지만, 정확도, 지연 시간, 처리량에서 약간의 손실이 발생합니다.