vllm 프로젝트에서 v0.21.0rc3 버전을 공개했습니다. 이번 업데이트는 DSR1/Kimi K25 모델을 위한 MLA(Multi-Layer Attention) 백엔드를 추가하는 데 중점을 둡니다. MLA 백엔드는 토큰 속도를 향상시켜 더욱 빠른 추론을 가능하게 합니다.
DSR1/Kimi K25 모델에서 MLA 백엔드를 사용할 수 있으며, 이는 특히 대규모 모델 추론 성능을 개선하는 데 도움이 됩니다. 새로운 백엔드는 vllm의 기존 기능과 함께 제공되어 유연성을 높입니다.
vllm 프로젝트는 지속적인 성능 개선과 다양한 모델 지원 확대를 목표로 하고 있으며, 이번 업데이트는 이러한 노력의 일환입니다.