연구진은 이미지 및 비디오 생성에 사용되는 디퓨전 트랜스포머(DiT) 서빙 효율성을 높이기 위한 GF-DiT 런타임을 개발했어요. GF-DiT는 워크로드 수요와 서비스 목표에 따라 DiT 요청의 병렬성을 동적으로 조정하여 GPU 활용률을 높이고 서비스 품질을 개선합니다. vLLM-Omni에 GF-DiT를 구현하고 테스트한 결과, 처리량은 최대 6.01배 향상되고 평균 지연 시간은 최대 95% 감소했습니다.