NVIDIA가 GB200 NVL72 GPU에서 Slurm 기반 토폴로지 인식 작업 스케줄링을 통해 엑사스케일 성능을 제공한다고 발표했어요. AI 모델 규모가 커짐에 따라 워크로드 배치 방식이 인프라 성능에 큰 영향을 미쳐요. Slurm 기반 토폴로지 인식 스케줄링은 GPU 간의 통신 오버헤드를 줄이고 데이터 로컬리티를 극대화하여 성능을 향상시켜요. 이를 통해 AI 모델 훈련 시간을 단축하고 효율성을 높일 수 있어요.