Reddit 사용자가 RTX 4070 Super GPU에서 Qwen3.6 35B 모델을 사용하여 80 tok/s 이상의 토큰 생성 속도를 달성한 설정 정보를 공유했습니다.
llama.cpp를 소스에서 빌드하고 MTP 지원을 위한 draft PR을 적용해야 하며, 관련 가이드 및 모델 다운로드 링크를 제공했습니다.
GPU 메모리 사용량을 최적화하기 위한 명령줄 매개변수 (-fitt 1664)가 중요하며, 다양한 벤치마크 테스트 결과도 함께 공개했습니다.
12GB VRAM을 최대한 활용하기 위한 설정이며, 다른 GPU 환경에서는 메모리 할당량을 조정해야 할 수 있습니다.