사용자가 5070 Ti (12GB VRAM) 노트북에서 llama-server로 Qwen3.6-35B 모델을 실행하는데 토큰 속도가 37 t/s에 머물러 조언을 구했어요.
다른 사용자들이 6GB VRAM 환경에서도 30-40 t/s를 내는 반면, 사용자는 최적의 명령어를 찾기 위해 다양한 옵션을 시도했지만 성능 향상에 어려움을 겪고 있어요.
더 큰 컨텍스트 (60k)를 사용하기 위해 Pi 에이전트와 함께 clanker를 활용하고 있으며, 더 빠른 토큰 속도를 위해 사용자의 설정을 개선할 방법을 문의했어요.