최신 대규모 언어 모델 사전 훈련은 단일 프로그램 다중 데이터(SPMD) 패러다임에 크게 의존하며, 이로 인해 가속기 간의 결합이 필요해요.
연구진은 DiLoCo 프레임워크의 진화 버전인 분리된 DiLoCo를 소개하여 락스텝 동기화 장벽을 깨고 SPMD를 넘어 훈련 효율성을 극대화했어요.
수백만 개의 시뮬레이션 칩을 사용한 실험에서 전반적인 다운타임 없이 훈련 효율성을 크게 향상시켰고, 텍스트 및 비전 작업에서 경쟁력 있는 모델 성능을 유지했어요.