vLLM 팀이 DeepSeek V4 안정화 및 성능 개선을 위한 패치 버전 v0.20.1을 공개했어요. 이번 업데이트는 멀티 스트림 사전 어텐션 GEMM, BF16 및 MXFP8 지원 개선 등에 중점을 뒀습니다.
DeepSeek V4 모델의 기본 모델 지원과 함께, 플래시 인퍼런스 통신을 위한 BF16 및 MXFP8 올투올 지원이 추가되었어요. 또한, CUDA 그래프 관련 오류 수정 및 BailingMoE 관련 문제 해결도 이루어졌습니다.
이번 업데이트에는 다양한 버그 수정이 포함되어 있으며