연구자가 TurboQuant에서 영감을 받아 KV 캐시 최적화 프로젝트 GraphKV를 공개했어요. GraphKV는 실제 next-token forward 시 캐시 바이트를 압축하고 품질을 유지합니다. Qwen2.5-7B 모델을 활용한 테스트 결과, 최대 3.36배의 압축률을 보였어요.
GraphKV는 int2-max, int4-balanced 등 다양한 quantization 방식을 지원하며, cosine 유사도와 top10 정확도를 측정하여 성능을 평가합니다. 16K 토큰 캐시 환경에서 Qwen2.5-7B 모델은 99.86%의 cosine 유사도를 기록했어요.
프로젝트는 GitHub에 공개되었으며