연구진은 비디오 디퓨전 트랜스포머(DiT)의 계산 비용을 줄이기 위해 PARE(Pruning and Adaptive Routing)를 제안했어요. PARE는 구조에 대한 이해를 바탕으로 폭과 깊이를 동시에 압축하고 입력에 따라 라우팅을 조정하는 방식이에요.
주의 헤드는 공간적, 시간적 역할을 특화하는 경향이 있다는 점을 활용해 시간 정보가 중요한 헤드가 먼저 제거되지 않도록 중요도 점수를 설계했어요. 또한 시점과 시각적 콘텐츠에 따라 실행할 블록을 동적으로 선택하는 경량 라우터를 훈련했어요.
Wan2.1-14B 모델을 사용한 실험 결과, PARE는 VBench 지표에서 품질을 유지하면서 단계별 계산량을 크게 줄였고, 추가적인 속도 향상을 위해 스텝 증류와 함께 사용될 수 있음을 확인했어요.