Pulse · AI 뉴스

Qwen3.6-35B A3B 모델, ik_llama.cpp로 22% 성능 향상

Qwen · 2026-05-21

Reddit 사용자 janvitos가 RTX 4070 Super 12GB 환경에서 ik_llama.cpp를 사용하여 Qwen3.6-35B-A3B 모델의 토큰 생성 속도를 22% 향상시켰다고 공유했어요.

기존 llama.cpp 대비 ik_llama.cpp는 토큰 생성 속도가 평균 90.6 tok/s에서 110.24 tok/s로 증가했으며, 이는 코딩 작업에서 특히 두드러졌어요.

12GB RTX GPU에서 유사한 성능을 얻으려면 특정 ik_llama.cpp 실행 파라미터 (캐시 타입, 컨텍스트 크기, 멀티 토큰 예측 등)를 조정해야 하며, VRAM 부족 시 --fit-margin 값을 늘릴 수 있어요.

##llama.cpp##ik_llama##Qwen3.6##성능향상##RTX4070

매일 핵심 AI 소식을 한국어로, 빠르게