연구진은 LLM의 KV 캐시 메모리 증가 문제를 해결하기 위해 잔차 양자화(RQ) 기법을 제안했어요. 기존 K-means 방식의 문제점을 개선하기 위해 방향성 보존을 강화하는 Gain-Shape K-means(GSKM)를 개발하고, 이를 RQ 파이프라인에 통합한 GSRQ를 선보였어요. LLaMA-3-8B 모델에서 GSRQ는 1비트 환경에서 VQLLM 대비 LongBench 작업 평균 정확도를 22.20% 향상시켰어요.