Qwen3.6 27B 모델의 FP8 양자화 버전이 RTX 5000 PRO GPU에서 20만 토큰 BF16 KV 캐시로 80 TPS를 달성했습니다.
블랙웰 하드웨어 가속을 통해 코딩 작업 추론 성능을 향상시켰으며, 128K 컨텍스트를 지원합니다.
vLLM 0.20.1, CUDA 12.9 환경에서 Qwen의 공식 FP8 양자화 모델을 사용했습니다.
MTP=2 설정 시 60-90 TPS를 얻을 수 있으며, Claude 세션과 유사한 안정적인 성능을 제공합니다.