연구진은 비디오 생성 모델이 과거 정보뿐 아니라 미래 정보를 활용해야 한다는 점을 강조했어요. Video-Mirai는 미래 프레임을 활용해 현재 프레임의 표현력을 향상시키는 새로운 훈련 방법이에요. 이 방법은 기존 모델의 인퍼런스 속도와 메모리 사용량을 유지하면서도 비디오 일관성을 개선했어요.
Video-Mirai는 5초 VBench에서 총 점수를 84.6으로 향상시켰고, 30초 롤아웃에서 주체 일관성은 88.5%, 배경 일관성은 91.9%로 개선됐어요. 연구 결과, 미래 프레임 기반의 타겟이 핵심적인 역할을 하는 것으로 나타났어요.
연구진은 비디오 생성 모델이 인퍼런스 시에는 인과성을 유지해야 하지만, 훈련 과정에서는 미래 정보를 활용해야 한다고 주장해요. Video-Mirai 프로젝트 페이지는 GitHub에서 확인할 수 있어요.