Moonshot AI가 Muon 옵티마이저 기반의 새로운 MoE 모델 Moonlight-16B-A3B를 공개했어요. 이 모델은 기존 모델 대비 적은 FLOPs로 더 나은 성능을 보여줘요.
연구팀은 Muon 옵티마이저의 확장성 문제를 해결하기 위해 가중치 감소 및 일관된 RMS 업데이트 기술을 적용했어요. 이를 통해 대규모 모델 훈련 시에도 하이퍼파라미터 튜닝 없이 바로 사용할 수 있도록 했어요.
Moonlight 모델의 코드, 사전 훈련된 모델, 중간 체크포인트 등을 오픈 소스로 공개하여 연구 발전에 기여할 예정이에요.