연구진이 Gated Delta Network의 확장 학습을 위한 새로운 규칙을 도출했어요. 기존 Maximal Update Parametrization(μP) 방식이 복잡한 구조의 선형 모델에는 적용하기 어려웠어요.
연구 결과, 새로운 규칙에 따라 AdamW와 SGD 모두에서 모델 폭에 따른 안정적인 학습률 전달이 가능했어요. 기존 방식은 학습률 전달에 실패했어요.
이 분석은 Gated Delta Network의 학습률 전달 규칙을 이해하고 실제 모델 학습에 적용할 수 있는 실질적인 가치를 입증했어요.