사용자가 블랙웰 및 아다 GPU 혼합 클러스터에서 vLLM, SGLang, llama.cpp 추론 엔진의 파이프라인 병렬 처리 성능을 벤치마킹했습니다. vLLM이 파이프라인 병렬 처리에 있어 다른 엔진보다 훨씬 뛰어난 성능을 보였습니다.
SGLang은 블랙웰 GPU 환경에서 뛰어난 성능을 보이지만, 아다 GPU가 포함되면 FP4 가중치 소프트웨어 폴백 부재로 인해 즉시 중단됩니다. vLLM은 이러한 상황을 원활하게 처리합니다.
vLLM은 GPU 분할 불균형에도 잘 대응하며, 수동 레이어 분할을 통해 블랙웰 GPU의 빠른 속도와 4090 GPU의 FP4 에뮬레이션 속도 차이를 극복하여 397B 모델에서도 속도 향상을 이끌어냈습니다.