Pulse · AI 뉴스

vLLM-MLX: 애플 실리콘 LLM 추론 프레임워크 출시 - M4 Max에서 초당 464 토큰 처리

vLLM-MLX · 2026-01-17

Waybarrios가 애플 실리콘 GPU 가속을 위한 vLLM-MLX 프레임워크를 개발했어요.

OpenAI API와 호환되며 텍스트, 이미지, 비디오, 오디오 등 멀티모달을 지원하고 최대 3.4배 속도 향상을 제공합니다.

M4 Max에서 Llama-3.2-1B-4bit 모델을 초당 464 토큰 처리 속도로 실행하며 Whisper STT는 197배 실시간 속도를 보입니다.

##LLM##애플실리콘##vLLM##MLX##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기