llama.cpp의 KV 캐시 RAM 오프로딩 옵션(-nkvo)을 사용하면 VRAM 부족 문제를 해결할 수 있어요.
RTX 5060 Ti 16GB 환경에서 Qwen3.6 27B 모델을 65K 컨텍스트로 실행할 때, KV 캐시를 q4_0로 양자화하고 58개 레이어만 GPU에 올려야 했어요.
KV 캐시를 RAM으로 오프로딩하면 전체 모델을 GPU에 올릴 수 있고, f16 품질의 KV 캐시를 사용할 수 있어 성능 저하를 상쇄할 수 있어요.
심지어 컨텍스트 윈도우를 128K까지 늘릴 수 있고, 생성 속도는 크게 변하지 않아요.