vLLM 프로젝트에서 v0.19.0 버전을 공개하며, Google Gemma 4 아키텍처에 대한 완전한 지원을 추가했습니다. 이를 통해 MoE, 멀티모달, 추론, 도구 사용 기능을 활용할 수 있게 되었어요.
새로운 버전은 추론 속도를 크게 향상시키는 제로 버블 비동기 스케줄링과 추측 디코딩 기능을 지원하며, 모델 러너 V2의 성능도 개선되었습니다.
ViT (Vision Transformer)의 CUDA 그래프 캡처를 지원하여 오버헤드를 줄였고, 일반적인 CPU KV 캐시 오프로딩 메커니즘을 제공하여 다양한 모델에 적용할 수 있게 되었어요.
DBO (Dual-Batch Overlap) 최적화가 일반 모델에 적용되었고, NVIDIA B300/GB300 지원을 강화하여 성능을 개선했습니다.
Transformers v5 호환성 개선을 통해 다양한 모델에서 안정적인 성능을 제공하며, 새로운 모델과 기능들을 추가하여 사용자 편의성을 높였어요.