Beam이 RTX 4090 대신 Apple Silicon (M5/M1 Max)에서 EXL3를 실행할 수 있도록 PonyExl3 프로젝트를 개발했어요. Qwen3.6-27B 모델에서 38토큰/초의 빠른 추론 속도를 달성했어요. Qwen3.6-35B 모델은 RTX 4090보다 높은 68.5 토큰/초의 디코딩 속도를 보여줬어요. EXL3의 메모리 효율성을 높이기 위해 fp16 warm cache를 제거했어요.