Muon은 대규모 신경망 학습에 효과적인 최적화기로 떠올랐지만, 그 원인에 대한 다양한 해석이 존재했어요. 본 논문에서는 Muon을 훈련 과정에서 발생하는 잔차 연결로 해석할 수 있다고 제안합니다. 수직 업데이트는 즉각적인 기울기 충실도를 희생하지만, 하위 계층의 표현 보존을 개선할 수 있습니다.
선형 최적화 환경에서 Muon은 로컬 목표에 더 느리게 적합하지만 하위 계층에서 활용하기 쉬운 표현을 학습할 수 있는 것으로 나타났어요. 이는 Muon의 개념적 설명을 제공하고 로컬 하강과 하위 유용성을 균형 있게 맞추는 최적화기 설계 관점을 제시합니다.
연구 결과는 Muon의 작동 방식에 대한 통찰력을 제공하며, 하위 계층의 활용성을 고려한 최적화기 설계에 도움이 될 수 있습니다.