연구진은 텍스트 기반 비디오 생성 모델인 DiT의 노이즈 제거 과정에서 중요한 전환점을 발견했어요. TunerDiT는 훈련 없이 다중 이벤트 비디오 생성을 가능하게 하는 점진적 제어 방법으로, 이벤트 경계를 강화하고 인접 이벤트 의미를 통합하는 방식으로 작동해요. 새로운 벤치마크 데이터셋 Meve를 공개했으며, 기존 방법 대비 8가지 지표에서 최고 성능을 달성하고 비디오 일관성과 이벤트 분리 간 균형을 조절할 수 있어요.