ReST-KV는 LLM의 KV 캐시 메모리 부담을 줄이기 위해 개발된 새로운 방법론입니다. 이 방법은 레이어별 출력 재구성과 공간-시간 평활화를 결합하여 KV 캐시 제거 작업을 보다 포괄적으로 수행합니다.
ReST-KV는 토큰 제거가 모델 출력에 미치는 영향을 직접 모델링하여 기존 방식의 단순한 주의 가중치 의존성을 넘어선 효과를 제공하며, LongBench에서 2.58%, RULER에서 15.2% 성능 향상을 보였습니다.
공개된 코드를 통해 재현 가능성을 높이고 추가 연구를 지원하며, 128k 컨텍스트 길이에서 디코딩 지연 시간을 10.61배 줄이는 효과를 달성했습니다.