Pulse · AI 뉴스

RTX 4060 8GB 노트북에서 Qwen3.6-35B-A3B 실행하기: 성공 요인, 실패 요인, 그리고 놀라운 추론 결과

Qwen · 2026-06-06

RTX 4060 8GB 노트북에서 Qwen3.6-35B-A3B 모델을 실행하는 과정에서 --no-mmap, VRAM 여유 공간, CPU 사용량 관리가 중요했어요. TurboQuant, Flash Attention, i-quant 같은 일반적인 최적화는 하이브리드 아키텍처 때문에 효과가 없었어요.

추론 과정에서 놀랍게도 speculative decoding을 사용했을 때 26%의 성능 향상을 보였는데, 이는 커뮤니티 벤치마크와는 다른 결과였어요. CPU에서 전문가 연산을 수행할 때 batching 덕분일 수 있다고 추측해요.

Windows 환경에서는 --no-mmap 사용 시 page fault를 줄이고, VRAM 여유 공간을 확보하며, 불필요한 CPU 사용량을 줄이는 것이 중요했어요. Smart App Control과 WSL 네트워크 설정 문제도 해결해야 했어요.

##Qwen##MoE##RTX4060##llama.cpp##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기