Pulse · AI 뉴스

RaBitQCache: 장문 LLM 추론을 위한 KVCache 회전 이진 양자화

RaBitQCache · 2026-06-30

RaBitQCache는 장문 LLM 추론 시 KV 캐시로 인한 성능 저하를 해결하기 위한 새로운 프레임워크입니다. 회전 이진 양자화와 이진-INT4 연산을 활용하여 어텐션 가중치를 효율적으로 추정합니다.

불편향성 에러 바운드 기반 프록시 스코어를 통해 어텐션 희소성에 따라 토큰 예산을 동적으로 조절하는 어댑티브 Top-p 검색을 지원합니다.

실험 결과, RaBitQCache는 기존 방식 대비 추론 속도를 높이고 메모리 I/O를 줄이며 생성 품질을 유지했습니다. 코드는 GitHub에서 확인 가능합니다.

##LLM##추론##최적화##KVCache##양자화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기