Pulse · AI 뉴스

RTX 3060 12GB에서 Qwen3.6-35B 모델 37t/s로 구동하는 방법

Qwen · 2026-05-28

spiritbuun의 CUDA 최적화와 mudler의 APEX 양자화 덕분에 RTX 3060 12GB에 17.3GB 모델을 로드해 72K 컨텍스트를 채운 상태에서 37t/s의 빠른 생성 속도를 달성했어요.

Qwen3.6-35B-A3B-APEX-MTP-I-Compact 모델을 사용할 때 MTP를 끄면 생성 속도가 향상되며, mudler의 APEX 양자화 방식이 다른 방식보다 우수한 성능을 보였어요.

컨텍스트 크기가 증가하면 생성 속도가 저하되지만, 129K 컨텍스트에서도 28.08t/s의 속도를 유지하며, Needle-in-a-haystack 테스트에서 100%의 정확도를 기록했어요.

##Qwen##RTX3060##양자화##llama-cpp##APEX

매일 핵심 AI 소식을 한국어로, 빠르게