Pulse · AI 뉴스

MLX에 W8A8 활성화 양자화 추가: M5 Pro에서 프리필 속도 2.52초로 향상

MLX · 2026-05-25

Mininglamp AI에서 MLX 기반 4B VLM의 프리필 속도를 높이기 위해 Cider SDK를 개발했어요.

Cider는 MLX에 W8A8 활성화 양자화를 추가하여 M5 Pro에서 프리필 시간을 2.839초에서 2.519초로 단축했어요.

M4 칩에서도 작동하지만, INT8 TensorOps는 M5 이상에서만 컴파일돼요.

##MLX##Cider##양자화##MininglampAI##AppleSilicon

매일 핵심 AI 소식을 한국어로, 빠르게