RaBitQCache는 장문 LLM 추론 시 KV 캐시로 인한 성능 저하를 해결하기 위한 새로운 프레임워크입니다. 회전 이진 양자화와 이진-INT4 연산을 활용하여 어텐션 가중치를 효율적으로 추정합니다.
불편향성 에러 바운드 기반 프록시 스코어를 통해 어텐션 희소성에 따라 토큰 예산을 동적으로 조절하는 어댑티브 Top-p 검색을 지원합니다.
실험 결과, RaBitQCache는 기존 방식 대비 추론 속도를 높이고 메모리 I/O를 줄이며 생성 품질을 유지했습니다. 코드는 GitHub에서 확인 가능합니다.