Reddit 사용자가 64GB 맥 스튜디오에서 397B 모델을 실행하는 데 성공했으며, 페이징 MoE 기술을 통해 14GB RAM으로 구동했습니다. K=20 전문가만 유지하고 나머지는 SSD에서 지연 로딩하는 방식으로 구현했습니다. 이 기술은 제한된 메모리 환경에서 대규모 모델을 실행하는 데 중요한 역할을 합니다.
실행 환경에서 토큰 생성 속도는 1.59 tok/s로, 생각하는 속도에 가깝지만, RAM 사용량 대비 MMLU 성능을 최적화하는 데 기여합니다. 4B Nano 모델은 71.7 tok/s로 훨씬 빠른 속도를 보입니다.
Mac-native 런타임으로 구축되었으며, 페이징 아키텍처를 사용합니다. Nano 및 Lite 모델은 영구적으로 무료로 사용할 수 있으며, 추가 정보는 outlier.host에서 확인할 수 있습니다.