Reddit 사용자 janvitos가 RTX 4070 Super 12GB 환경에서 ik_llama.cpp를 사용하여 Qwen3.6-35B-A3B 모델의 토큰 생성 속도를 22% 향상시켰다고 공유했어요.
기존 llama.cpp 대비 ik_llama.cpp는 토큰 생성 속도가 평균 90.6 tok/s에서 110.24 tok/s로 증가했으며, 이는 코딩 작업에서 특히 두드러졌어요.
12GB RTX GPU에서 유사한 성능을 얻으려면 특정 ik_llama.cpp 실행 파라미터 (캐시 타입, 컨텍스트 크기, 멀티 토큰 예측 등)를 조정해야 하며, VRAM 부족 시 --fit-margin 값을 늘릴 수 있어요.