WindowQuant는 VLMs의 KV 캐시를 최적화하기 위해 윈도우 적응형 혼합 정밀도 양자화 기법을 사용합니다. 윈도우 수준의 양자화 탐색은 시각적 토큰 윈도우와 텍스트 프롬프트 간의 유사성 점수를 기반으로 KV 캐시 윈도우의 최적 비트폭 구성을 빠르게 결정합니다. 실험 결과 WindowQuant는 다양한 데이터셋에서 최첨단 VLM 모델 및 KV 캐시 양자화 방법을 능가하는 성능을 보였습니다.