QLNI가 InfiniteKV라는 새로운 KV 캐시를 오픈 소스 공개했어요. InfiniteKV는 오래된 토큰을 104바이트 레코드로 저장하여 VRAM 사용량을 크게 줄여줍니다.
기존 KV 캐시는 오래된 토큰을 삭제하지만, InfiniteKV는 이를 RAM 또는 디스크에 저장하여 모델이 과거 정보를 활용할 수 있도록 지원합니다. 이를 통해 Mistral-7B는 훈련 창밖의 토큰에서도 답변할 수 있습니다.
Colab 데모를 통해 InfiniteKV의 성능을 확인할 수 있으며, 640MB의 파일만 디스크에 저장되고, 11.5MB의 시그니처만 VRAM에 저장되는 등 메모리 효율성이 뛰어납니다.