연구진은 실시간 로봇 액션 실행과 고품질 4D 월드 합성(비디오 + 3D 재구성)을 단일 프레임워크로 통합하는 X-WAM이라는 새로운 통일된 4D 월드 모델을 제안했어요.
X-WAM은 사전 학습된 비디오 확산 모델의 강력한 시각적 사전 지식을 활용하여 멀티뷰 RGB-D 비디오를 예측하여 미래 세계를 상상하고, 가벼운 구조적 적응을 통해 효율적으로 공간 정보를 얻어요.
5,800시간 이상의 로봇 데이터로 사전 훈련된 X-WAM은 RoboCasa 및 RoboTwin 2.0 벤치마크에서 79.2% 및 90.7%의 평균 성공률을 달성하며 시각적 및 기하학적 지표 모두에서 기존 방법을 능가했어요.