Reddit 사용자가 블랙웰 기반 GPU에서 vLLM을 사용할 때 NVFP4, INT4, FP8 등의 정밀도 감소 기법을 적용해도 기대만큼 성능 향상이 나타나지 않는다고 질문했습니다.
Nemotron Nano 모델을 vLLM과 LM Studio에서 비교했을 때 LM Studio가 훨씬 빠른 처리 속도를 보여주며, 모델 로딩 속도 또한 vLLM보다 10배 가량 빠릅니다.
사용자는 vLLM의 멀티 토큰 예측 기능이 llama.cpp 추론과 비슷한 수준의 성능을 제공하지만, 블랙웰 GPU의 네이티브 4비트 코어 활용 효과를 제대로 보지 못하고 있다고 지적했습니다.