연구진은 추론 모델의 긴 출력으로 인한 메모리·컴퓨팅 병목 현상을 해결하기 위해 VaSE(Value-Aware Stochastic KV Cache Eviction)를 제안했어요. VaSE는 값 상태의 크기를 고려해 중요 정보를 보호하고 다양한 캐시 제거 결정을 장려하는 방식이에요.
기존 캐시 제거 방식의 문제점은 값 상태 중 일부가 매우 큰 값을 가지는데, 이를 제거하면 모델이 반복적인 추론 루프에 빠지는 현상이 발생한다는 거예요. VaSE는 이러한 문제점을 해결하기 위해 값 상태의 크기를 고려해 중요 정보를 보호해요.
Qwen3 모델에 VaSE를 적용한 결과, 기존 방식 대비 4배 더 높은 KV 캐시 압축률에서도 더 높은 정확도를 달성했으며, 가장 강력한 제거 방식보다 4% 이상 성능이 향상됐어요.