Pulse · AI 뉴스

Mistral.rs v0.8.2: GB10/B200/H100 GPU에서 llama.cpp 대비 최대 2.8배 빠른 CUDA 추론

Mistral · 2026-06-01

EricLBuehler가 Mistral.rs CUDA 성능 향상에 집중한 v0.8.2 버전을 공개했어요. Gemma 4 모델에서 GB10/H100/B200 GPU에서 llama.cpp보다 최대 2.8배 빠른 추론 속도를 보여요.

새 버전은 다양한 양자화 방식(eQ8_0, Q4K)과 모델(dense, MoE)에서 성능 향상을 입증했으며

Mac/Linux에서는 curl 명령어를, Windows에서는 PowerShell 명령어를 통해 쉽게 설치할 수 있으며, OpenAI 호환 서버와 웹 채팅 UI를 함께 제공해요.

##Mistral##CUDA##llama.cpp##GPU##성능개선

매일 핵심 AI 소식을 한국어로, 빠르게