NVIDIA, University of Warsaw, University of Edinburgh 연구팀이 KV-캐시 압축 기술인 DMS를 발표한 데 이어, 이를 기반으로 FastDMS를 개발했습니다. FastDMS는 기존 vLLM 대비 1.5~2배 빠른 속도로 동작하며, KV 메모리 사용량도 5~8배 줄입니다.
FastDMS는 Llama 3.2 1B 모델에서 최대 6.4배까지 KV-캐시 압축률을 보여주며, Qwen 3 8B 모델에서도 6.3배의 압축률을 달성했습니다. 특히 TurboQuant 대비 더 빠른 속도와 메모리 효율성을 제공합니다.
FastDMS는 기존 KV-캐시의 단점이었던 품질 저하를 최소화하여, KLD(KL divergence) 값이 낮고 토큰 매칭률이 높아 안정적인 성능을 유지합니다. MIT 라이선스로 공개되어 누구나 자유롭게 사용할 수 있습니다.
FastDMS는 NVIDIA의 Qwen 3 8B DMS 체크포인트 및 Llama 3.2 1B DMS 체크포인트에서 테스트되었으며, 관련 코드와 트레이너는 GitHub 저장소에서 확인할 수 있습니다.