Pulse · AI 뉴스

맥북 에어 M5에서 Gemma 4 26b MoE 실행 성공: Turbo Quant & KV 캐시 지원

Gemma · 2026-05-16

Anthropic의 Gemma 4 26b 모델을 터보 양자화 및 KV 캐시 회전 지원과 함께 맥북 에어 M5에서 실행하는 데 성공했어요. 8k 컨텍스트에서 llama.cpp보다 프롬프트 처리, 생성 속도, 런타임 메모리 측면에서 우수한 성능을 보여요.

사용자 정의 커널을 통해 SWA 레이어의 2비트 메모리 절약 효과를 얻어 더 높은 배치 크기를 유지하면서 전체 FP16 프롬프트 처리 속도에 근접했어요. 32GB M5에서 512 토큰 프롬프트를 사용할 때 배치 크기에 따라 텍스트 생성 속도가 향상돼요.

GitHub 저장소를 통해 모델을 다운로드하고 직접 실행할 수 있으며, UV를 사용하여 설치하고 mlx_lm.server 명령어를 통해 백엔드를 실행할 수 있어요.

##Gemma##MLX##TurboQuant##맥북##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기