연구진이 LLM의 추론 성능을 높이기 위해 KV 캐시 압축 기술인 InfoKV를 개발했어요. InfoKV는 예측 불확실성과 표현 변화를 고려하여 기존 어텐션 기반 방식보다 뛰어난 성능을 보여요.
기존 방식이 주변 맥락에만 영향을 주는 반면, InfoKV는 예측 불확실성이 높은 토큰이 먼 미래 맥락에 미치는 영향을 고려했어요. 이를 통해 장문 프리필링과 디코딩 시 모두 성능을 향상시켰어요.
Llama-3.1, Llama-3.2, DeepSeek-R1 모델에서 InfoKV가 기존 방식보다 우수한 성능을 냈으며, 이는 정보 이론 기반 접근 방식의 가능성을 보여줘요.