Waybarrios가 애플 실리콘 GPU 가속을 위한 vLLM-MLX 프레임워크를 개발했어요. OpenAI API와 호환되며 텍스트, 이미지, 비디오, 오디오 등 멀티모달을 지원하고 최대 3.4배 속도 향상을 제공합니다. M4 Max에서 Llama-3.2-1B-4bit 모델을 초당 464 토큰 처리 속도로 실행하며 Whisper STT는 197배 실시간 속도를 보입니다.