구글 딥마인드와 연구팀이 분산 AI 학습의 효율성과 안정성을 획기적으로 높이는 새로운 아키텍처 'Decoupled DiLoCo'를 발표했습니다. 이 기술은 데이터 센터 간의 통신 지연 문제를 해결하고 하드웨어 장애에 대한 복원력을 강화합니다.
Decoupled DiLoCo는 Pathways와 DiLoCo 기술을 결합하여 학습 단위를 분리하고 비동기식 데이터 흐름을 통해 하드웨어 장애를 격리합니다. 이를 통해 글로벌 분산 데이터 센터에서 AI 모델을 더욱 유연하게 학습할 수 있습니다.
연구팀은 Gemma 4 모델을 활용한 테스트에서 Decoupled DiLoCo가 기존 방식 대비 더 높은 수준의 학습 가용성을 유지하며, 동일한 ML 성능을 달성하는 것을 확인했습니다. 이 기술은 다양한 하드웨어 세대를 혼합하여 활용할 수 있도록 지원합니다.