사용자가 RTX 3080 10GB, Ryzen 7 7700x, 32GB DDR5 환경에서 Qwen 3.6 35B 모델을 실행했어요. ik_llamacpp cuda 엔진을 사용해 131072 컨텍스트 크기에서 pp 1400t/s, tg 26t/s 성능을 기록했어요. KV 캐시를 GPU로 오프로딩하면 더 빠른 속도가 나오지만, 컨텍스트 크기가 줄어드는 문제가 있어 현재 설정이 최적이라고 판단해요.