Pulse · AI 뉴스

llama-server로 Qwen3.6-35B 모델 실행 시 토큰 속도 향상 방법

Qwen · 2026-06-01

사용자가 5070 Ti (12GB VRAM) 노트북에서 llama-server로 Qwen3.6-35B 모델을 실행하는데 토큰 속도가 37 t/s에 머물러 조언을 구했어요.

다른 사용자들이 6GB VRAM 환경에서도 30-40 t/s를 내는 반면, 사용자는 최적의 명령어를 찾기 위해 다양한 옵션을 시도했지만 성능 향상에 어려움을 겪고 있어요.

더 큰 컨텍스트 (60k)를 사용하기 위해 Pi 에이전트와 함께 clanker를 활용하고 있으며, 더 빠른 토큰 속도를 위해 사용자의 설정을 개선할 방법을 문의했어요.

##llama-server##Qwen3.6##토큰속도##최적화

매일 핵심 AI 소식을 한국어로, 빠르게