연구진이 LLM의 계층별 이질성을 고려한 Layerwise Learning Rate (LLR) 기법을 발표했어요. LLR은 Heavy-Tailed Self-Regularization 이론에 기반해 각 Transformer 계층에 최적화된 학습률을 부여합니다.
LLR은 학습 속도를 최대 1.5배 향상시키고, 평균 zero-shot 정확도를 47.09%에서 49.02%로 끌어올렸어요. LLaMA, GPT-nano 등 다양한 모델에서 AdamW, Muon 옵티마이저와 함께 효과를 입증했습니다.
LLR은 기존 학습률 설정에서 얻은 정보를 활용해 튜닝 부담을 줄이며, GitHub에서 코드 공개되었어요.