연구진이 Muon의 작동 원리를 강 변곡점 지형을 통해 분석하여, 뮤온의 직교화가 주요 성분 진행을 가속화하는 동시에 우세 방향의 노이즈를 증폭시켜 진동을 유발한다는 사실을 밝혀냈습니다.
연구진은 Muon의 빠른 진행과 Schedule-Free 평균화의 안정화 효과를 결합한 AMUSE를 제안하여, 학습 스케줄 없이 언제든지 학습이 가능하도록 했습니다.
AMUSE는 시각 작업 및 대규모 언어 모델 사전 훈련에서 (Schedule-Free) AdamW 및 Muon보다 성능-반복 파레토 프론티어를 지속적으로 개선했습니다.