연구진이 단일 이미지에서 실시간으로 상호작용 가능한 3D 세계를 구축하는 MoVerse를 공개했어요. MoVerse는 입력 이미지의 시야각을 확장하여 360도 파노라마를 만들고, 이를 기반으로 3D 가우시안 스캐폴드를 생성해요. 사용자가 지정한 카메라 경로를 따라 렌더링하여 사진처럼 사실적인 비디오를 생성하며, RTX 4090 GPU 하나로 8~FPS의 실시간 상호작용이 가능해요.
MoVerse는 세계 구축과 관찰 렌더링을 분리하여 작동하며, 이를 통해 제한된 시야 정보만으로도 완전한 주변 환경을 구현하고, 일관성 있는 고품질 비디오를 제공해요. 파노라마 기반의 기하학적 정보를 활용하여 3D 스캐폴드를 생성하고, 이를 통해 지속적인 공간 메모리를 구축하는 방식이 특징이에요.
연구진은 고품질 조건부 렌더링을 위해 양방향 디퓨전 모델을 학습하고, 이를 저지연 스트리밍을 위한 인과적 자기 회귀 모델로 변환하여 실시간 상호작용을 가능하게 했어요. MoVerse는 명시적인 3D 표현의 제어력과 생성적 비디오 모델의 시각적 품질을 결합한 결과물이에요.