연구진은 DNN 레이어의 업데이트 규칙에 대한 데이터 기반의 최적 LMO 기하학을 동적으로 선택하는 새로운 기준을 제시했어요. 이 기준은 그래디언트와 활성화 통계를 활용하여 SGD에서 Muon 업데이트까지의 디자인 공간을 탐색해요.
단일 단계 랜덤 특징 회귀 서브 모델을 통해 도출된 이 기준은 파라미터별 프리컨디셔닝을 통합하여 SGD, Muon, Adam, MuAdam을 특정 극값으로 복구할 수 있어요.
실험 결과, 이 데이터 기반 최적화기는 Muon과 AdamW의 성능을 능가하거나 경쟁하며, 런타임 오버헤드는 약 3%에 불과했어요.