Pulse · AI 뉴스

최적화 하이퍼파라미터 전달과 임베딩 레이어 학습률의 중요성에 대한 정량화

arXiv cs.AI · 2026-05-21

연구진은 작은 규모에서 큰 규모로 최적화 하이퍼파라미터를 추론하는 하이퍼파라미터 전달을 정량화하는 프레임워크를 개발했어요. 이 프레임워크는 스케일링 법칙 적합도, 외삽 오류에 대한 강건성, 파라미터화 선택으로 인한 점근적 손실 페널티의 세 가지 지표를 포함해요. 연구 결과, AdamW로 훈련할 때 $μ$P가 표준 파라미터화(SP)보다 뛰어난 학습률 전달을 제공하는 이유는 임베딩 레이어 학습률을 최대화하기 때문인 것으로 나타났어요.

SP에서 임베딩 레이어 학습률은 훈련 불안정성을 유발하는 병목 현상으로 작용하며, $μ$P에 맞춰 너비 배수로 늘리면 훈련을 안정화시키고 하이퍼파라미터 전달을 개선할 수 있어요. 또한, 가중치 감쇠는 스케일링 법칙 적합도를 개선하지만, 토큰당 파라미터가 고정된 설정에서는 외삽의 강건성을 저해하는 것으로 나타났어요.

본 연구는 LLM 훈련에서 하이퍼파라미터 전달의 중요성을 강조하며, 임베딩 레이어 학습률 최적화가 훈련 안정성과 성능 향상에 중요한 역할을 한다는 것을 보여줘요.

##LLM##하이퍼파라미터##임베딩##AdamW##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기