연구진이 대규모 언어 모델 훈련 효율성을 높이는 새로운 업데이트 정책 MGUP을 제안했어요. MGUP은 기존 모멘텀 기반 옵티마이저에 통합하여 일부 파라미터에 더 큰 스텝 사이즈를 적용하는 방식이에요.
MGUP-AdamW, MGUP-Lion, MGUP-Muon 등 다양한 옵티마이저 변형을 만들 수 있으며, 이론적으로도 수렴성을 보장해요. MAE 사전 훈련, LLM 사전 훈련, 파인 튜닝 등 다양한 작업에서 기존 옵티마이저보다 성능이 우수하거나 안정적이에요.
MGUP은 코드를 GitHub에서 공개했으며, 대규모 모델 훈련을 가속화하고 안정화하는 데 기여할 것으로 기대돼요.