Pulse · AI 뉴스

고차원 이단계 최적화에서 Outer-Momentum 재시작

arXiv cs.LG · 2026-05-28

연구진은 DiLoCo와 같은 분산 최적화 알고리즘에서 outer momentum의 주기적 재시작을 연구했어요. Outer momentum은 inner optimization loop에 의해 유도된 효과적인 스펙트럼에 작용하며, 통신 라운드 간에 로컬 업데이트의 진행 상황을 축적하는 방식을 제어해요. 실험 결과, 재시작은 오래된 momentum을 버리고 inner loop의 진행 상황을 보존하여 위상 상쇄를 활용하는 것으로 나타났어요.

선형화된 제곱 손실 모델에서 예측 공간 잔차가 경험적 NTK 하에 진화하는 환경에서 mode-wise restart contraction을 도출했어요. 장난감 실험은 예측된 contraction 동작을 확인했고, 언어 모델 사전 훈련 실험은 통신 기간에 걸쳐 outer 학습률과 momentum 값의 안정 범위를 넓히는 것을 보여줬어요.

주기적 재시작은 outer learning rate와 momentum 값을 안정적으로 유지하여 분산 최적화 성능을 향상시키는 효과적인 방법으로 확인되었어요.

##최적화##분산학습##OuterMomentum##DiLoCo
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기