Pulse · AI 뉴스

WindowQuant: VLMs 추론 최적화를 위한 윈도우 기반 유사성 기반 혼합 정밀도 KV 캐시 양자화

arXiv cs.CL · 2026-05-04

WindowQuant는 VLMs의 KV 캐시를 최적화하기 위해 윈도우 적응형 혼합 정밀도 양자화 기법을 사용합니다.

윈도우 수준의 양자화 탐색은 시각적 토큰 윈도우와 텍스트 프롬프트 간의 유사성 점수를 기반으로 KV 캐시 윈도우의 최적 비트폭 구성을 빠르게 결정합니다.

실험 결과 WindowQuant는 다양한 데이터셋에서 최첨단 VLM 모델 및 KV 캐시 양자화 방법을 능가하는 성능을 보였습니다.

##VLMs##양자화##KV캐시##추론최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기