연구진이 파이프라인 학습의 효율성을 높이는 PACI(Pipeline Asynchronous training with Controlled Inconsistency) 방법을 제안했어요. PACI는 weight stashing이나 예측 없이 forward/backward 버전 불일치를 제한하는 비동기 파이프라인 방식이에요.
GPT 스타일 언어 모델 사전 훈련에서 PACI는 기존 방식과 비슷한 성능과 메모리 사용량을 유지하면서 훈련 시간을 최대 1.69배 단축했어요.
연구 결과, forward/backward 불일치를 완전히 제거하는 대신 명시적으로 제한하면 상당한 효율성 향상을 얻을 수 있다는 것을 보여줬어요.