연구진은 비디오 디퓨전 트랜스포머 학습 시 발생하는 긴 시퀀스 길이로 인한 계산량 불균형 문제를 해결하기 위해 AdaptiveLoad 프레임워크를 제안했어요.
AdaptiveLoad는 메모리 소비와 계산량을 동시에 제한하는 적응형 로드 밸런싱 시스템과 LayerNorm-Modulate CUDA 커널을 결합하여 GPU 활용도를 높였어요.
Wan 2.1 세계 모델 학습 실험 결과, 계산량 불균형률을 39%에서 18.9%로 줄이고, VRAM 활용 효율성을 22.7% 향상시켜 전체 학습 처리량을 27.2% 증가시켰어요.