Moonshot AI가 Muon 옵티마이저 기반의 새로운 MoE 모델 'Moonlight'를 공개했어요. Moonlight는 3B/16B 파라미터로 5.7T 토큰을 사용하여 학습되었으며, 기존 모델 대비 더 적은 FLOPs로 더 나은 성능을 보여줘요. 연구팀은 Muon 구현체와 사전 학습된 모델, 중간 체크포인트를 오픈소스로 공개하여 연구를 지원할 예정이에요.