RTX 4070S 12GB와 AMD 9800x3D를 사용한 LLM 모델 성능 테스트 결과를 공유하는 게시글입니다. 코딩 작업에 적합한 모델로 Qwen3.6-35B-A3B-GGUF Q6_K_XL을 주로 사용하고 있습니다.
Unsloth 환경에서 Qwen3.6-35B-A3B-GGUF Q6_K_XL 모델은 초당 40개 토큰(tgs) 처리 속도를 보였으며, Gemma 4 26B 모델은 초당 26개 토큰 처리 속도를 기록했습니다.
CUDA 13.1 환경에서 VS Code, Cline, KiloCode를 통해 서브 에이전트 사용, 웹 개발에 적합한 모델 성능을 확인했으며, 디스플레이 출력을 iGPU로 분산하여 VRAM을 절약했습니다.