연구진은 SignSGD와 Muon과 같은 sign 기반 최적화 알고리즘이 대규모 모델 훈련에서 뛰어난 성능을 보이는 이유를 이론적으로 분석했습니다.
$\ell_1$-norm stationarity, $\ell_\infty$-smoothness, 분리된 노이즈 모델을 활용하여 SignSGD가 SGD보다 복잡도를 $d$ 배 줄이는 문제를 규명했습니다.
이론적 경계를 실제 GPT-2 모델 사전 훈련에 적용하여 SignSGD의 빠른 수렴을 예측하는 정확도를 입증했습니다.