Pulse · AI 뉴스

Value-Aware Stochastic KV Cache Eviction으로 추론 모델 성능 향상

Qwen · 2026-06-02

연구진은 추론 모델의 긴 출력으로 인한 메모리·컴퓨팅 병목 현상을 해결하기 위해 VaSE(Value-Aware Stochastic KV Cache Eviction)를 제안했어요. VaSE는 값 상태의 크기를 고려해 중요 정보를 보호하고 다양한 캐시 제거 결정을 장려하는 방식이에요.

기존 캐시 제거 방식의 문제점은 값 상태 중 일부가 매우 큰 값을 가지는데, 이를 제거하면 모델이 반복적인 추론 루프에 빠지는 현상이 발생한다는 거예요. VaSE는 이러한 문제점을 해결하기 위해 값 상태의 크기를 고려해 중요 정보를 보호해요.

Qwen3 모델에 VaSE를 적용한 결과, 기존 방식 대비 4배 더 높은 KV 캐시 압축률에서도 더 높은 정확도를 달성했으며, 가장 강력한 제거 방식보다 4% 이상 성능이 향상됐어요.

##추론모델##KV캐시##VaSE##Qwen3

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기