연구진이 2D 영상에서 추출한 정확한 자세 정보만으로 3D 인간 움직임 패턴을 학습하는 VideoMDM 프레임워크를 공개했어요. 기존 방법과 달리 3D 데이터를 활용하지 않고도 2D-3D 변환 모델을 통해 학습합니다. HumanML3D 데이터셋에서 3D 데이터로 학습한 모델과 거의 유사한 성능을 보였고, 실제 영상 데이터셋에서도 인간이 선호하는 움직임을 생성하는 데 성공했어요.
VideoMDM은 3D 움직임 패턴을 학습하는 과정에서 2D 영상의 깊이 정보를 활용하여 3D 데이터로 직접 지도하는 것과 동일한 효과를 냅니다. 또한 속도 일관성 및 과매개변수화 표현 정렬과 같은 3D 움직임 정규화 기법을 2D 환경에 맞게 적용했어요. 이를 통해 3D 움직임 패턴을 학습하는 과정을 개선했습니다.
VideoMDM은 훈련 과정에서 3D 움직임 패턴을 일관성 있게 학습하여 실제 영상에서 자연스러운 움직임을 생성할 수 있습니다. Fit3D 및 NBA 데이터셋에서 뛰어난 성능을 보이며, 2D 영상 기반 3D 움직임 생성의 가능성을 보여주었어요.