Pulse · AI 뉴스

MosaicKV: 동적 2차원 KV 캐시 압축을 통한 장문 컨텍스트 LLM 서비스

MosaicKV · 2026-07-01

MosaicKV는 극도로 긴 컨텍스트를 처리하는 LLM 서비스의 KV 캐시 압축 시스템입니다. KV 캐시의 중요 요소에 대한 압축 전략을 세분화하여 정확도 손실을 줄입니다. H800 GPU에서 테스트 결과, MosaicKV는 최대 16배의 어텐션 속도 향상, 4.8배의 낮은 디코딩 지연, 7.3배의 높은 처리량을 달성했습니다. 메모리 사용량은 3배 줄이고 LongBench와 RULER에서 평균 정확도 손실은 1.76%에 불과합니다.

기존 KV 캐시 압축 기법은 시퀀스 또는 채널 차원 중 하나만 타겟팅했지만, MosaicKV는 각 KV 벡터의 중요 요소에 맞춰 압축 전략을 조정합니다. 이를 통해 메모리 사용량을 줄이고 성능 저하를 최소화합니다.

MosaicKV는 GPU와 CPU 자원을 활용하여 압축된 KV 캐시를 관리하고 어텐션 계산을 가속화하는 메커니즘을 도입했습니다. 이 시스템은 장문 컨텍스트 LLM 서비스를 위한 효과적인 솔루션으로 평가받고 있습니다.

MosaicKV는 2차원 압축을 통해 메모리 사용량을 줄이고, 세분화된 압축 전략을 통해 정확도 손실을 최소화하여 장문 컨텍스트 LLM 서비스의 성능을 향상시킵니다.

##LLM##KV캐시##압축##MosaicKV##어텐션
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기