Muon의 단점을 보완한 OrScale은 레이어별 업데이트 크기를 제어하는 새로운 방법입니다. 실제 파라미터 공간 방향의 Frobenius norm을 활용하여 레이어별 신뢰 비율을 측정합니다. OrScale은 CIFAR-10/DavidNet에서 Muon보다 성능을 향상시켰으며, FineWeb-Edu 사전 훈련에서도 AdamW를 능가했습니다.