Pulse · AI 뉴스

PyTorch MoE/MoD 트레이닝 프레임워크 개발: CUDA 커널, DeepSpeed 통합

PyTorch · 2026-06-08

MatN23이 MoE/MoD 아키텍처 지원, CUDA 커널, DeepSpeed 통합 PyTorch 프레임워크를 개발했어요. RMSNorm, RoPE, SwiGLU, MoE 라우팅 커널을 커스텀하여 T4에서 PyTorch 대비 2~7배 빠른 속도를 냈어요. 50만~3억 파라미터 규모 모델 학습 가능하며 Apple Silicon Metal 쉐이더도 지원해요.

자동 학습 오케스트레이터는 20개 이상의 지표를 모니터링하며 LR 조정, 전문가 추가/삭제, OOM 처리 등 자동 개입해요. Apache 2.0 라이선스로 공개되었으며 Colab 데모를 제공해요.

Ampere+ 하드웨어에서 테스트할 수 있는 사용자 피드백을 환영하며, 질문은 언제든 답변 가능해요.

##PyTorch##MoE##MoD##CUDA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기