EricLBuehler가 Mistral.rs CUDA 성능 향상에 집중한 v0.8.2 버전을 공개했어요. Gemma 4 모델에서 GB10/H100/B200 GPU에서 llama.cpp보다 최대 2.8배 빠른 추론 속도를 보여요.
새 버전은 다양한 양자화 방식(eQ8_0, Q4K)과 모델(dense, MoE)에서 성능 향상을 입증했으며
Mac/Linux에서는 curl 명령어를, Windows에서는 PowerShell 명령어를 통해 쉽게 설치할 수 있으며, OpenAI 호환 서버와 웹 채팅 UI를 함께 제공해요.