연구진이 대규모 언어 모델 훈련에서 Muon이 Adam보다 약 2배 더 효율적인 이유를 곡률 관점에서 분석했어요. Muon은 Adam과 비슷한 1차 성능 향상을 보이지만, 2차 곡률 페널티가 더 작다는 점이 차이점을 설명해요. 데이터 불균형이 Muon의 곡률 페널티 이점을 증폭시키며, 모델 중간·후반 단계에서 층 내부 곡률이 작아지는 것이 핵심 원인으로 파악돼요.