Pulse · AI 뉴스

vLLM, 새로운 v0.20.0 버전 출시: DeepSeek V4 지원 및 성능 향상

vLLM · 2026-04-28

vLLM 프로젝트에서 v0.20.0 버전을 공개하며, 320명의 기여자들의 참여로 752개의 커밋이 반영되었습니다.

이번 업데이트에서는 DeepSeek V4 지원이 추가되었고, CUDA 13.0을 기본값으로 설정하여 성능을 개선했습니다.

PyTorch 2.11로 업그레이드되었으며, Hunyuan v3 (Hy3) preview와 Granite 4.1 Vision 모델도 새롭게 지원합니다.

FlashAttention 4를 기본 MLA prefill 백엔드로 재활성화하고, 2비트 KV 캐시를 지원하는 TurboQuant 기술도 적용되었습니다.

다양한 모델 지원 및 LoRA, 멀티모달 MRoPE 등 여러 기능 개선이 이루어졌으며, 성능 최적화 작업도 진행되었습니다.

##vLLM##모델출시##딥러닝##CUDA

매일 핵심 AI 소식을 한국어로, 빠르게