Pulse · AI 뉴스

QKVShare: 온디바이스 멀티 에이전트 LLM을 위한 양자화된 KV 캐시 핸드오프

QKVShare · 2026-05-06

QKVShare는 에이전트 간 효율적인 잠재적 컨텍스트 핸드오프를 위해 토큰 레벨 혼합 정밀도 할당, 자체 포함 CacheCard 표현, HuggingFace 호환 캐시 주입 경로를 결합하는 프레임워크입니다.

150개의 GSM8K 문제에서 Llama-3.1-8B-Instruct를 사용하여 실험한 결과, 반복 핸드오프 시 적응형 양자화는 균일 양자화에 비해 더 깊은 홉, 더 높은 예산 설정에서 경쟁력을 유지하며 성능 향상을 보였습니다.

현재 QKVShare 지연 시간 경로는 카드 생성 대신 후 주입 생성 단계가 지배하며, 이는 온디바이스 시스템 방향으로 양자화된 KV 핸드오프의 가능성을 보여줍니다.

##LLM##양자화##온디바이스##멀티에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기