개인 사용자가 RTX 5070, 3090, Strix Halo에서 다양한 LLM 모델을 테스트한 결과를 공개했어요. 55회 런을 통해 로암, 불칸, CPU, CUDA, vLLM-CUDA 백엔드에서 모델 성능을 측정했답니다.
RTX 5070은 메모리 대역폭이 중요할 때 RTX 3090보다 유리한 모습을 보였어요. 특히 12GB VRAM에 들어가는 모델에서 성능 차이가 두드러졌다고 합니다.
Qwen3.6-27B 모델의 경우, Q2 양자화 방식이 Q4보다 14% 빠른 속도를 제공하지만 품질 저하가 있을 수 있으며, Q6는 28% 더 느리지만 품질 향상을 가져온다고 분석했어요.