사용자가 블랙웰 GPU에서 vLLM을 사용하여 Qwen3.6-35B-NVFP4 모델의 동시 처리 성능을 테스트했습니다. 30개의 동시 스트림에서 이미지 캡셔닝 작업을 수행하며 초당 평균 1924개의 토큰을 생성하는 데 성공했습니다. MOE 모델이 동시 처리 시 예상보다 뛰어난 성능을 보였으며, 전문가 선택 비율이 61% 수준으로 확인되었습니다.