연구진은 작은 규모에서 큰 규모로 최적화 하이퍼파라미터를 추론하는 하이퍼파라미터 전달을 정량화하는 프레임워크를 개발했어요. 이 프레임워크는 스케일링 법칙 적합도, 외삽 오류에 대한 강건성, 파라미터화 선택으로 인한 점근적 손실 페널티의 세 가지 지표를 포함해요. 연구 결과, AdamW로 훈련할 때 $μ$P가 표준 파라미터화(SP)보다 뛰어난 학습률 전달을 제공하는 이유는 임베딩 레이어 학습률을 최대화하기 때문인 것으로 나타났어요.
SP에서 임베딩 레이어 학습률은 훈련 불안정성을 유발하는 병목 현상으로 작용하며, $μ$P에 맞춰 너비 배수로 늘리면 훈련을 안정화시키고 하이퍼파라미터 전달을 개선할 수 있어요. 또한, 가중치 감쇠는 스케일링 법칙 적합도를 개선하지만, 토큰당 파라미터가 고정된 설정에서는 외삽의 강건성을 저해하는 것으로 나타났어요.
본 연구는 LLM 훈련에서 하이퍼파라미터 전달의 중요성을 강조하며, 임베딩 레이어 학습률 최적화가 훈련 안정성과 성능 향상에 중요한 역할을 한다는 것을 보여줘요.