연구진이 LLM 추론 시 KV 캐시 관리를 위한 CONF-KV를 제안했어요. 모델의 불확실성을 활용해 컨텍스트를 효율적으로 관리하고, 필요한 경우 더 많은 정보를 유지해요.
CONF-KV는 불확실성이 높을 때 더 많은 컨텍스트를 보존하고, 확신이 있을 때는 적극적으로 캐시를 제거하여 메모리 사용량을 줄여요.
Needle-in-a-Haystack에서 91.4%의 정확도를 달성하며 기존 방식보다 뛰어난 성능을 보였고, VisualWebArena에서는 2.8배 낮은 메모리로 95.3%의 성공률을 기록했어요.