Pulse · AI 뉴스

Tangram: KV 캐시 압축 효율성 극대화로 다중 턴 LLM 서빙 성능 향상

vLLM · 2026-06-15

연구팀은 다중 턴 LLM 서빙 시 KV 캐시 증가 문제를 해결하기 위해 Tangram 프레임워크를 개발했어요. Tangram은 헤드별 보존 패턴의 규칙성을 활용해 KV 캐시 압축 효율성을 높여요.

기존 방식의 페이지 단편화 문제를 해결하고 GPU 작업 부하를 균형 있게 분산하여 디코딩 지연 시간을 줄였어요.

vLLM에 적용한 결과, 전체 KV 기준 최대 2.6배의 처리량 향상을 달성했어요. 구현체는 GitHub에서 공개됐어요.

##LLM##KV캐시##압축##vLLM##서빙

매일 핵심 AI 소식을 한국어로, 빠르게