연구진은 뮤온(Muon)의 모멘텀이 스펙트럼 필터 역할을 한다고 밝혔습니다. 뮤온은 대규모 언어 모델 훈련에서 뛰어난 성능을 보이지만, 모멘텀의 이론적 역할은 명확하지 않았습니다. 연구에 따르면 모멘텀은 노이즈를 억제하고 주요 신호를 보존하여 스펙트럼 간격을 넓혀, 뮤온의 직교화 단계에서 안정성을 높입니다. 다양한 작업에서 실험 결과도 이론적 분석을 뒷받침하며, 다른 행렬 기반 최적화기에서도 모멘텀의 이점을 이해하는 데 기여할 수 있습니다.