Pulse · AI 뉴스

Tangram: 비균일 KV 캐시 잠금 - 효율적인 다중 턴 LLM 서빙을 위한 기술

Tangram · 2026-06-05

Tangram은 다중 턴 LLM 서빙 시 KV 캐시 증가로 인한 GPU 메모리·대역폭 압박 문제를 해결하기 위한 새로운 서빙 시스템입니다.

Deterministic Budget Allocation, Head Group Page, Ahead-of-Time (AOT) Load Balancing 등 3가지 핵심 기술을 통해 메모리 단편화·스케줄링 복잡성·커널 활용도 저하 문제를 해결합니다.

실험 결과, Tangram은 기존 시스템 대비 최대 2.6배 향상된 처리량을 제공하며 모델 정확도를 그대로 유지합니다. GitHub에서 오픈 소스로 공개됐습니다.

##LLM##KV캐시##서빙##최적화##Tangram

매일 핵심 AI 소식을 한국어로, 빠르게