사용자가 Qwen3.6-27B 모델을 로컬 환경에서 실행할 때 ROCm과 Vulkan 백엔드에서 성능 저조를 겪고 있습니다. 프롬프트 처리 속도는 ROCm에서 235.73 tok/s, Vulkan에서는 634.80 tok/s로 큰 차이를 보입니다. vLLM을 사용했을 때도 만족스러운 결과를 얻지 못했으며, 다양한 조합을 시도했지만 개선되지 않았습니다.
현재 Ubuntu 24.04.4 LTS, 커널 6.8.0-124-generic, RX 7900 XTX GPU, ROCm 7.2.4, AMD 드라이버 6.16.13, Vulkan API 1.4.330, Mesa 26.0.0-devel 환경에서 테스트했습니다. MTP(Multi-Turn Prompting) 기능을 사용할 때 성능이 더욱 저하되는 것으로 나타났습니다.
사용자는 커널 업데이트 등 추가적인 해결책을 모색 중이며, MTP 기능 향상 외에 전반적인 성능 개선을 목표로 하고 있습니다.