Mi50 32GB 환경에서 vLLM을 사용해 Qwen 3.5 AWQ-4bit 모델을 실행하는 사용자가 1 TPS 미만의 낮은 속도를 겪고 있어요. ai-infos/vllm-gfx906-mobydick:latest 포크를 사용 중이며, 다른 사용자들의 성공 경험 공유를 요청했어요. Vision/Text to Text 모델 또는 Gemma 4와 같은 any-to-any 모델 실행에 어려움을 겪고 있습니다.
Qwen 3.5-9B-AWQ-4bit 모델을 vLLM로 실행하는 최적 설정을 찾고 있으며, 현재 속도가 기대에 미치지 못해 도움을 요청했어요. 최적화된 설정 경험을 공유해 주시면 감사하겠습니다.