SplitZip은 LLM 서빙 시 KV 캐시 전송 병목 현상을 해결하기 위해 개발된 GPU 친화적인 무손실 압축 기술입니다. SplitZip은 부동소수점 지수의 중복성을 활용하여 고빈도 지수 값을 고정 길이 코드로 인코딩하고, 드물게 나타나는 지수 값은 별도의 스트림으로 처리합니다. 실제 BF16 활성화 텐서에서 최대 613.3GB/s 압축 처리량과 2181.8GB/s 해제 처리량을 달성하며, 기존 압축 기술보다 뛰어난 성능을 보였습니다.