연구진이 3D 장면 구조 예측을 위한 Structured 4D Latent Predictive Model을 개발했어요. 이 모델은 텍스트 지시사항에 따라 장면의 3D 구조 변화를 예측하고, 다양한 3D 형식으로 디코딩할 수 있어요. 실험 결과, 기존 비디오 기반 플래너보다 시각적 품질, 3D 일관성, 멀티뷰 일관성이 뛰어나 복잡한 조작 작업에서 우수한 성능을 보였어요.
개발된 모델은 미래 장면을 생성하여 목표 지향적 역동학 모듈을 통해 실행 가능한 동작으로 변환해요. 새로운 시각 환경에서도 강력한 일반화 능력을 보여줘 실제 로봇 플랫폼에서도 효과적이에요.
모델 관련 웹사이트는 https://structured-4d-model.github.io/ 에서 확인할 수 있어요.