연구진이 2D 영상에서 추출한 정확한 자세 정보를 활용해 3D 인간 움직임 패턴을 학습하는 VideoMDM 프레임워크를 공개했어요. 3D 데이터 없이도 2D 자세를 통해 3D 움직임을 예측하는 방식이에요. Fit3D 및 NBA 데이터셋에서 인간이 선호하는 움직임을 생성하며 뛰어난 성능을 보여줬어요.
VideoMDM은 2D-3D 변환 모델을 활용해 3D 자세 시퀀스를 생성하고, 이를 바탕으로 2D 자세를 재투영하여 3D 움직임을 학습해요. 기존 방식과 달리 학습 과정에서 3D 움직임 패턴을 학습하여 일관성 있는 결과를 얻을 수 있어요. HumanML3D 데이터셋에서 3D 데이터 기반 학습 모델에 근접한 성능을 달성했어요.
VideoMDM은 속도 일관성 및 과매개변수화된 표현 정렬과 같은 3D 움직임 규칙화 기법을 2D 환경에 적용하여 3D 움직임 패턴을 학습해요. 2D 영상 기반으로 3D 움직임을 생성하는 새로운 접근 방식이에요.