Pulse · AI 뉴스

Apple Silicon에서 EXL3 실행 가능한 포팅 성공 - PonyExl3

PonyExl3 · 2026-06-15

Beam이 RTX 4090 대신 Apple Silicon (M5/M1 Max)에서 EXL3를 실행할 수 있도록 PonyExl3 프로젝트를 개발했어요. Qwen3.6-27B 모델에서 38토큰/초의 빠른 추론 속도를 달성했어요. Qwen3.6-35B 모델은 RTX 4090보다 높은 68.5 토큰/초의 디코딩 속도를 보여줬어요. EXL3의 메모리 효율성을 높이기 위해 fp16 warm cache를 제거했어요.

##AppleSilicon##EXL3##PonyExl3##Metal
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기