Reddit 사용자가 2x RTX PRO 6000 환경에서 Qwen 3.6 모델의 벤치마크 결과를 공유했어요. MTP 적용 여부에 따라 생성 TPS가 달라졌으며, 최대 3,500 TPS를 기록했어요. VLLM 백엔드를 사용해 개인 프로젝트에서 테스트한 결과입니다.
Qwen 3.6 27B 모델은 MTP를 2로 설정하고 64 동시성을 적용했을 때 1,800 TPS를 기록했고, 35B 모델은 128 동시성에서 3,500 TPS를 달성했어요. 프롬프트 처리 속도는 3만 TPS에 달했어요.
벤치마크는 BF16 정밀도에서 진행되었으며, 최신 VLLM 백엔드를 사용했어요. Reddit 사용자가 개인 프로젝트에서 테스트한 결과입니다.