연구진은 단일 스텝 지연이 대규모 비동기 파이프라인 LLM 사전 훈련의 성능 저하를 유발한다는 기존 믿음을 정면으로 반박했어요. AdamW 옵티마이저의 경우 성능 저하가 심각하지만, Muon과 같은 최신 옵티마이저는 지연에 강건한 것으로 확인됐어요. 연구진은 옵티마이저에 관계없이 지연 효과를 완화하는 Error Feedback 기반 교정 방법을 제시하여 비동기 파이프라인 병렬 훈련의 실용성을 입증했어요.