Pulse · AI 뉴스

LLM 학습 속도 향상: Layerwise Learning Rate (LLR) 공개

Llama · 2026-05-21

연구진이 LLM의 계층별 이질성을 고려한 Layerwise Learning Rate (LLR) 기법을 발표했어요. LLR은 Heavy-Tailed Self-Regularization 이론에 기반해 각 Transformer 계층에 최적화된 학습률을 부여합니다.

LLR은 학습 속도를 최대 1.5배 향상시키고, 평균 zero-shot 정확도를 47.09%에서 49.02%로 끌어올렸어요. LLaMA, GPT-nano 등 다양한 모델에서 AdamW, Muon 옵티마이저와 함께 효과를 입증했습니다.

LLR은 기존 학습률 설정에서 얻은 정보를 활용해 튜닝 부담을 줄이며, GitHub에서 코드 공개되었어요.

##LLM##학습률##최적화##Transformer##LLR

매일 핵심 AI 소식을 한국어로, 빠르게