RTX 5070 Ti 16GB와 32GB RAM을 사용한 환경에서 Qwen3.6-35B-A3B 모델을 실행한 사용자의 경험을 공유했어요. LM Studio 설정을 통해 GPU 오프로드 및 MoE 전문가 CPU 오프로드를 적용하여 44 토큰/초의 속도를 달성했어요. llama.cpp 사용이 더 나은 성능을 제공할 수 있다는 의견을 제시하며, GGUF Q8_0 포맷을 활용했음을 밝혔어요.