snapo84 사용자가 22GB VRAM를 가진 RTX 2080 Ti 2대를 활용하여 Qwen3.6 27B 모델을 38 토큰/초로 실행하는 설정을 공유했어요.
--split-mode tensor 옵션을 적용하여 토큰 생성 속도가 14 토큰/초에서 38 토큰/초로 크게 향상되었으며, --fit on 옵션도 성능 개선에 기여했어요.
1,000달러 미만의 저렴한 구성으로 Hermes 및 Opencode와 같은 모델도 잘 작동하며, 400W 피크 전력 소비량을 유지하고 있어요.