MatN23이 MoE/MoD 아키텍처 지원, CUDA 커널, DeepSpeed 통합 PyTorch 프레임워크를 개발했어요. RMSNorm, RoPE, SwiGLU, MoE 라우팅 커널을 커스텀하여 T4에서 PyTorch 대비 2~7배 빠른 속도를 냈어요. 50만~3억 파라미터 규모 모델 학습 가능하며 Apple Silicon Metal 쉐이더도 지원해요.
자동 학습 오케스트레이터는 20개 이상의 지표를 모니터링하며 LR 조정, 전문가 추가/삭제, OOM 처리 등 자동 개입해요. Apache 2.0 라이선스로 공개되었으며 Colab 데모를 제공해요.
Ampere+ 하드웨어에서 테스트할 수 있는 사용자 피드백을 환영하며, 질문은 언제든 답변 가능해요.