DepthKV는 LLM의 긴 문맥 추론 성능을 향상시키기 위해 KV 캐시 가지치기 방법을 제안했어요. 기존의 균일한 가지치기 방식과 달리, DepthKV는 각 레이어의 중요도에 따라 가지치기 비율을 다르게 적용해요. 실험 결과, DepthKV는 동일한 가지치기 비율에서도 기존 방식보다 더 나은 성능을 보여줬어요.