사용자는 RTX 5070 Ti와 Ryzen 9800X3D를 사용하여 Qwen3.6-35B-A3B 모델을 79 t/s의 속도로 실행하는 데 성공했습니다. 이때 --n-cpu-moe 플래그가 중요한 역할을 했습니다.
Claude Opus 4.7을 활용하여 서버 실행, 벤치마크, VRAM 분할 분석, 튜닝 과정을 자율적으로 수행하며 하드웨어 설정 최적화를 진행했습니다.
--cpu-moe 옵션 대신 --n-cpu-moe 옵션을 사용하면 16GB GPU에서 54% 더 빠른 속도를 얻을 수 있으며, 128K 컨텍스트를 활용하는 데도 유리합니다.