연구진이 파이프라인 병렬 처리 방식의 LLM 사전 훈련에서 1단계 지연이 성능 저하를 일으키지 않는다는 사실을 입증했어요. AdamW 옵티마이저가 불안정성을 보이는 반면, Muon은 안정적인 성능을 보였고, 오류 피드백 기반 수정법으로 성능을 더욱 개선했어요. 100억 개 파라미터 모델까지 실험해 파이프라인 병렬 처리의 실용성을 확인했어요.
기존에는 파이프라인 병렬 처리에서 그래디언트 지연으로 인한 불안정성이 문제로 지적되어 왔지만, 이번 연구는 옵티마이저 선택에 따라 안정적인 성능을 낼 수 있음을 보여줬어요. Muon 옵티마이저는 1단계 지연에도 강점을 보였고, 오류 피드백 수정법을 적용해 성능을 더욱 끌어올렸어요.
연구진은 파이프라인 병렬 처리의 성능 격차를 줄이는 전략을 제시하며, 대규모 LLM 사전 훈련에서 비동기 파이프라인 병렬 처리의 잠재력을 강조했어요. 기존 방식의 한계를 극복하고, 더 나은 성능을 달성할 수 있는 가능성을 열었다는 평가를 받고 있어요.