Pulse · AI 뉴스

NVIDIA, KV-캐시 압축 속도 6.4배 향상시킨 FastDMS 공개

FastDMS · 2026-05-05

NVIDIA, University of Warsaw, University of Edinburgh 연구팀이 KV-캐시 압축 기술인 DMS를 발표한 데 이어, 이를 기반으로 FastDMS를 개발했습니다. FastDMS는 기존 vLLM 대비 1.5~2배 빠른 속도로 동작하며, KV 메모리 사용량도 5~8배 줄입니다.

FastDMS는 Llama 3.2 1B 모델에서 최대 6.4배까지 KV-캐시 압축률을 보여주며, Qwen 3 8B 모델에서도 6.3배의 압축률을 달성했습니다. 특히 TurboQuant 대비 더 빠른 속도와 메모리 효율성을 제공합니다.

FastDMS는 기존 KV-캐시의 단점이었던 품질 저하를 최소화하여, KLD(KL divergence) 값이 낮고 토큰 매칭률이 높아 안정적인 성능을 유지합니다. MIT 라이선스로 공개되어 누구나 자유롭게 사용할 수 있습니다.

FastDMS는 NVIDIA의 Qwen 3 8B DMS 체크포인트 및 Llama 3.2 1B DMS 체크포인트에서 테스트되었으며, 관련 코드와 트레이너는 GitHub 저장소에서 확인할 수 있습니다.

##KV-캐시##압축##FastDMS##NVIDIA##LLM

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기