Pulse · AI 뉴스

22GB VRAM RTX 2080 Ti 2대 구성으로 Qwen3.6 27B 모델 38 토큰/초 달성

Qwen · 2026-05-15

snapo84 사용자가 22GB VRAM를 가진 RTX 2080 Ti 2대를 활용하여 Qwen3.6 27B 모델을 38 토큰/초로 실행하는 설정을 공유했어요.

--split-mode tensor 옵션을 적용하여 토큰 생성 속도가 14 토큰/초에서 38 토큰/초로 크게 향상되었으며, --fit on 옵션도 성능 개선에 기여했어요.

1,000달러 미만의 저렴한 구성으로 Hermes 및 Opencode와 같은 모델도 잘 작동하며, 400W 피크 전력 소비량을 유지하고 있어요.

##Qwen##RTX2080Ti##llama.cpp##성능##최적화

매일 핵심 AI 소식을 한국어로, 빠르게