Pulse · AI 뉴스

KV 캐시 RAM 오프로딩, 생각보다 나쁘지 않을 수도

Qwen · 2026-06-06

llama.cpp의 KV 캐시 RAM 오프로딩 옵션(-nkvo)을 사용하면 VRAM 부족 문제를 해결할 수 있어요.

RTX 5060 Ti 16GB 환경에서 Qwen3.6 27B 모델을 65K 컨텍스트로 실행할 때, KV 캐시를 q4_0로 양자화하고 58개 레이어만 GPU에 올려야 했어요.

KV 캐시를 RAM으로 오프로딩하면 전체 모델을 GPU에 올릴 수 있고, f16 품질의 KV 캐시를 사용할 수 있어 성능 저하를 상쇄할 수 있어요.

심지어 컨텍스트 윈도우를 128K까지 늘릴 수 있고, 생성 속도는 크게 변하지 않아요.

##llama.cpp##Qwen3.6##KV캐시##오프로딩

매일 핵심 AI 소식을 한국어로, 빠르게