Pulse · AI 뉴스

RTX 5070 Ti 16GB + 32GB RAM 환경에서 Qwen3.6-35B-A3B 모델 실행 결과

Qwen · 2026-04-24

RTX 5070 Ti 16GB와 32GB RAM을 사용한 환경에서 Qwen3.6-35B-A3B 모델을 실행한 사용자의 경험을 공유했어요.

LM Studio 설정을 통해 GPU 오프로드 및 MoE 전문가 CPU 오프로드를 적용하여 44 토큰/초의 속도를 달성했어요.

llama.cpp 사용이 더 나은 성능을 제공할 수 있다는 의견을 제시하며, GGUF Q8_0 포맷을 활용했음을 밝혔어요.

##Qwen##RTX5070Ti##LMStudio##GPU##llama.cpp

매일 핵심 AI 소식을 한국어로, 빠르게