MilliVid는 장거리 비디오 생성 시 일관성을 유지하기 위해 계층적 Latent 공간에서 coarse-to-fine rollout 방식을 사용해요. 프레임을 계층적 토큰으로 압축하여 장면 구조와 세부 묘사를 분리하여 처리해요. Minecraft 비디오 데이터셋으로 검증 결과 기존 방식보다 일관성 있는 결과물을 만들 수 있었어요.
MilliVid는 프레임당 수십 개의 토큰으로 구성된 긴 Transformer 시퀀스 길이를 피하기 위해 설계되었어요. 거친 수준에서 장면 구조를 먼저 생성하고, 세부적인 묘사는 나중에 추가하여 장거리 일관성을 유지해요.
연구팀은 autoencoder를 사전 훈련하여 프레임을 계층적 토큰으로 압축하고, 비디오 diffusion 모델을 훈련하여 coarse-to-fine rollout을 수행했어요. 이를 통해 기하학적 일관성과 객체 영속성을 유지하면서도 계산 비용을 절감했어요.