연구진은 추론 모델의 긴 출력으로 인한 메모리·컴퓨팅 병목 현상을 해결하기 위해 VaSE(Value-Aware Stochastic KV Cache Eviction)를 제안했어요. VaSE는 값(value) 상태의 크기를 고려해 중요 정보를 보호하고, 다양한 캐시 삭제 결정을 장려하는 방식이에요.
연구 결과, Qwen3 모델이 VaSE를 적용해 KV 캐시를 4배 압축해도 기존 선별 방식보다 높은 정확도를 얻었으며, 기존 삭제 방식보다 4% 이상 성능이 향상됐어요. 이는 효율성과 정확도 사이의 간극을 좁히는 결과입니다.
VaSE는 훈련 과정 없이 적용 가능하며, FlashAttention2를 지원하고 추론 모델의 정적 메모리 공간을 확보하는 데 기여합니다.