PhysiFormer는 물리적으로 타당한 3D 객체 운동을 위한 디퓨전 트랜스포머입니다.
기존 비디오 월드 모델과 달리, PhysiFormer는 뷰 의존적 픽셀 공간이 아닌 월드 좌표로 표현되는 3D 메시를 객체로 표현합니다.
이 모델은 초기 정점 위치, 속도, 객체 재료 유형(강체 또는 탄성)을 기반으로 향후 정점 궤적을 샘플링합니다.
PhysiFormer는 좌표 공간 디퓨전을 뷰-불변, 기하학적 인식 월드 모델링을 위한 유망한 단계로 제시합니다.