Pulse · AI 뉴스

UltraQuant: 컨텍스트 기반 에이전트용 4비트 KV 캐싱

vLLM · 2026-06-19

연구진은 컨텍스트 기반 에이전트의 KV 캐시 압축 기법인 UltraQuant을 개발했어요. TurboQuant와 vLLM FP8을 기준으로 4비트 KV 캐싱을 적용했습니다.

UltraQuant은 멀티 라운드 에이전트 워크로드에서 작업 품질, 캐시 잔류율, 처리량 등을 함께 측정하는 방식으로 설계됐어요.

AMD GPU에서 UltraQuant을 사용했을 때 P50 시간은 3.47배 단축되고 출력 처리량은 1.63배 향상되는 효과를 보였어요.

##에이전트##KV캐싱##UltraQuant
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기