Pulse · AI 뉴스

블랙웰 GPU에서 Qwen3.6-35B-NVFP4 동시 처리 성능 확인

Qwen · 2026-07-05

사용자가 블랙웰 GPU에서 vLLM을 사용하여 Qwen3.6-35B-NVFP4 모델의 동시 처리 성능을 테스트했습니다.

30개의 동시 스트림에서 이미지 캡셔닝 작업을 수행하며 초당 평균 1924개의 토큰을 생성하는 데 성공했습니다.

MOE 모델이 동시 처리 시 예상보다 뛰어난 성능을 보였으며, 전문가 선택 비율이 61% 수준으로 확인되었습니다.

##vLLM##Qwen##Blackwell##동시처리##GPU

매일 핵심 AI 소식을 한국어로, 빠르게