Pulse · AI 뉴스

12GB GPU에서 Qwen3.6 35B 모델 80 tok/s 달성 가능

Qwen · 2026-05-09

Reddit 사용자가 RTX 4070 Super GPU에서 Qwen3.6 35B 모델을 사용하여 80 tok/s 이상의 토큰 생성 속도를 달성한 설정 정보를 공유했습니다.

llama.cpp를 소스에서 빌드하고 MTP 지원을 위한 draft PR을 적용해야 하며, 관련 가이드 및 모델 다운로드 링크를 제공했습니다.

GPU 메모리 사용량을 최적화하기 위한 명령줄 매개변수 (-fitt 1664)가 중요하며, 다양한 벤치마크 테스트 결과도 함께 공개했습니다.

12GB VRAM을 최대한 활용하기 위한 설정이며, 다른 GPU 환경에서는 메모리 할당량을 조정해야 할 수 있습니다.

##LLM##Qwen##llama.cpp##GPU##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게