Pulse · AI 뉴스

CONF-KV: 불확실성 기반 KV 캐시 관리로 LLM 추론 효율성 극대화

CONF-KV · 2026-05-24

연구진이 LLM 추론 시 KV 캐시 관리를 위한 CONF-KV를 제안했어요. 모델의 불확실성을 활용해 컨텍스트를 효율적으로 관리하고, 필요한 경우 더 많은 정보를 유지해요.

CONF-KV는 불확실성이 높을 때 더 많은 컨텍스트를 보존하고, 확신이 있을 때는 적극적으로 캐시를 제거하여 메모리 사용량을 줄여요.

Needle-in-a-Haystack에서 91.4%의 정확도를 달성하며 기존 방식보다 뛰어난 성능을 보였고, VisualWebArena에서는 2.8배 낮은 메모리로 95.3%의 성공률을 기록했어요.

##LLM##KV캐시##메모리최적화##CONF-KV

매일 핵심 AI 소식을 한국어로, 빠르게