vllm 프로젝트가 버전 0.24.0을 공개했어요. MoE 모델의 스타트업 타임아웃을 늘려 초기 응답 속도 문제를 개선했어요. Qwen3 모델의 NVFP4 구성도 리팩토링하여 성능을 최적화했어요. 이번 업데이트는 MoE 모델의 초기 로딩 시간을 줄여 사용자 경험을 향상시키는 데 중점을 뒀어요. Qwen3 모델 사용자들은 변경된 NVFP4 구성으로 더 나은 성능을 기대할 수 있어요.