연구진은 비동기 DiLoCo 시스템의 불안정성을 해결하기 위해 Cosine Gated Adam Decay (CGAD)라는 새로운 외곽 최적화 방법을 제안했습니다. CGAD는 각 pseudo-gradient에 정보를 감쇠시키는 지수 함수와 코사인 게이트를 적용하여 Adam 버퍼에 입력합니다.
CGAD는 기존 Adam과 동일한 성능을 유지하면서도, 지연 시간에 따른 정보 손실을 줄여줍니다. 또한, 실험 결과 Llama 모델의 사전 훈련에서 CGAD가 기존 방법보다 안정적인 성능을 보였습니다.
연구진은 CGAD의 수렴 속도에 대한 이론적 분석을 수행했으며, 기존 방법보다 지연 시간의 영향을 덜 받는다는 것을 입증했습니다.