Muon이 LLM 및 비전 분류기 사전 훈련을 위한 최첨단 옵티마이저로 부상했어요. Adam, SGD보다 효율적이지만, Muon의 특징 학습 능력은 명확하지 않았어요. 이번 연구에서는 손상된 이미지와 텍스트를 평가하여 Muon이 Adam, SGD보다 일관되게 더 강력한 특징을 학습한다는 것을 확인했어요.
Transformer, CNN 등 다양한 아키텍처에서 로짓 마진이 더 크다는 점을 확인했고, 이는 계층별 특징의 로버스트성 우위를 반영해요. 다운스트림 작업에서 선형 분류기를 훈련하거나 사전 훈련된 파라미터로 전체 모델을 미세 조정하여 Muon이 Adam, SGD보다 효과적으로 전이된다는 것을 입증했어요.
다중 구성 요소 특징을 가진 대표적인 분류 문제에서 Muon이 Adam, SGD보다 더 큰 마진과 더 높은 효과적인 순위를 달성하여 실험적 결과를 뒷받침하는 이론적 근거를 제공했어요.