연구진은 2D 비디오 생성에는 성공했지만, 물리적 세계의 4D 시공간 규모 부족으로 어려움을 겪는 생성 모델의 한계를 지적했어요.
ST-Gen4D는 4D 시공간 인지 능력을 기반으로 하는 세계 모델을 활용하여 4D 생성 프레임워크를 제안하며, 글로벌 외관 구조와 로컬 동적 토폴로지를 활용해요.
ST-Gen4D는 다양한 모달리티를 여러 표현으로 인코딩하고, 이를 글로벌 외관 그래프와 로컬 동적 그래프로 조각하여 4D 시공간 추론을 가능하게 해요.