연구진이 대규모 모델의 일반화 오류를 줄이는 MiMuon 옵티마이저를 제안했어요. MiMuon은 기존 Muon 옵티마이저의 장점을 유지하면서도 일반화 오류를 줄이는 데 효과적이에요. MiMuon은 Muon과 모멘텀 기반 SGD 옵티마이저의 장점을 결합하여 설계되었으며, 수렴 속도는 Muon과 동일하게 유지했어요. Qwen3-0.6B, YOLO26m 등 대규모 모델 훈련 실험 결과, MiMuon 옵티마이저의 효율성이 입증되었어요.