Pulse · AI 뉴스

Stochastic KV Routing: 적응형 Depth-Wise 캐시 공유를 가능하게 하는 방법

Stochastic KV Routing · 2026-05-05

이 논문은 트랜스포머 언어 모델의 KV(Key-Value) 캐시 메모리 요구량을 줄이는 새로운 방법을 제안합니다. 기존 연구가 시간 축을 중심으로 KV 캐시를 줄이는 데 집중한 반으로, 깊이(depth) 차원을 활용한 최적화의 가능성을 제시합니다. Stochastic KV Routing은 각 레이어에 대한 전체 캐시가 불필요하다는 점에 주목합니다.

Stochastic KV Routing은 모델의 깊이별 성능을 분석하여 각 레이어에 필요한 KV 캐시의 양을 적응적으로 조절합니다. 이를 통해 메모리 사용량을 줄이면서도 성능 저하를 최소화하는 것을 목표로 합니다. 이 방법은 기존의 압축 및 제거 방식과 함께 사용될 수 있습니다.

연구진은 Stochastic KV Routing을 통해 KV 캐시 메모리 사용량을 줄이고, 모델의 처리량(throughput)을 향상시킬 수 있음을 보였습니다.

##모델최적화##KV캐시##StochasticKVRouting##트랜스포머
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기