Pulse · AI 뉴스

SplitZip: LLM 서빙 KV 캐시 압축으로 속도 향상

SplitZip · 2026-05-03

SplitZip은 LLM 서빙 시 KV 캐시 전송 병목 현상을 해결하기 위해 개발된 GPU 친화적인 무손실 압축 기술입니다.

SplitZip은 부동소수점 지수의 중복성을 활용하여 고빈도 지수 값을 고정 길이 코드로 인코딩하고, 드물게 나타나는 지수 값은 별도의 스트림으로 처리합니다.

실제 BF16 활성화 텐서에서 최대 613.3GB/s 압축 처리량과 2181.8GB/s 해제 처리량을 달성하며, 기존 압축 기술보다 뛰어난 성능을 보였습니다.

##LLM##KV캐시##압축
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기