연구진이 단일 모노 비디오에서 물리 시뮬레이션에 적합한 4D 메쉬 장면을 재구성하는 OVOW 시스템을 공개했어요. 기존 4D 재구축은 렌더링 품질은 뛰어나지만, 물리 시뮬레이터와 에이전트 AI에 필요한 토폴로지, 인스턴스 분리, 물리적 인터페이스가 부족했어요. OVOW는 비전-언어 모델로 객체 인스턴스를 분류하고, 물리 기반 조립으로 접지 및 객체 지지력을 보장하는 4단계 파이프라인을 사용해요.
연구진은 OVOW의 핵심으로 직접 정점 변형을 통해 모든 움직임(강체 및 비강체)을 모델링하여, 사전에 정의된 카테고리나 스켈레톤 리깅 없이 밀폐된 메쉬 장면을 생성했어요. 새로운 extit{구조화된 비디오-4D} 평가 벤치마크를 통해 기하학적 정확도, 인스턴스 분리, 물리적 타당성을 평가하고, 향후 4D 세계 모델과 에이전트 AI를 위한 시뮬레이션 데이터 생성 엔진으로 활용돼요.
합성 벤치마크에서 OVOW는 기존 방식보다 기하학적 정확도와 오류율이 가장 낮고, 물리 시뮬레이션 속도가 1~2배 빠르다는 결과가 나왔어요.