연구진은 Muon 옵티마이저가 매트릭스 분해 문제에서 saddle-to-saddle 역학을 피하는 방식을 분석했어요. Muon은 작은 초기화에서 발생하는 느린 역학을 피하고, 모든 주요 모드를 동시에 학습하며, 학습률 제한 없이 안정성을 유지해요. Muon은 학습 과정에서 특정 행렬 양수를 보존하며, 이는 기존 gradient flow와 차이를 보여줘 빠른 수렴을 가능하게 해요.