KV-Fold는 KV 캐시를 활용하여 장문 컨텍스트 추론을 수행하는 새로운 기법입니다. 이 기법은 모델을 재훈련하거나 구조를 변경하지 않고도 기존 트랜스포머 모델의 KV 캐시를 재활용합니다.
KV-Fold는 각 단계에서 모델이 이전 단계의 KV 캐시를 기반으로 다음 청크를 처리하고, 새로운 키와 값을 추가하여 확장된 캐시를 전달하는 방식으로 작동합니다.
16K~128K 토큰의 컨텍스트에서 511 깊이의 체인까지 152번의 실험에서 100% 정확한 일치 검색률을 달성하며, 단일 40GB GPU 메모리 제한 내에서 작동합니다.