연구진은 비디오 디퓨전 트랜스포머(DiT)의 단계별 추론 지연이 중요한 병목 현상임을 지적하고, 이를 해결하기 위해 프레임 간 간소화(FIS)를 활용한 FIS-DiT 프레임워크를 제안했습니다.
FIS-DiT는 훈련 없이 프레임 차원을 최적화하여, 각 프레임 위치가 전체 시공간 맥락에 중요함을 활용하며, 2.11~2.41배의 속도 향상을 달성했습니다.
Wan 2.2 및 HunyuanVideo 1.5 데이터셋에서 VBench-Q 및 CLIP 지표에서 미미한 성능 저하 없이 속도 향상을 입증하며, 고해상도 비디오 생성의 실시간 가능성을 제시합니다.