연구진은 단일 이미지에서 관절 구조 3D 객체를 생성하는 데 어려움이 있다고 밝혔습니다. 기존 방법은 정적 이미지에서 역학적 관계를 추론하거나, 단일 이미지에서 생성된 시각적 역학을 통해 파라미터를 추정하는데, 이 과정에서 오류가 누적될 수 있습니다.
연구진은 시각적 역학 및 역학적 파라미터의 공동 분포를 학습하는 PWM-ArtGen 모델을 제안했습니다. 관절 구조 객체를 동적 시스템으로 간주하여, 액션 디퓨전과 이미지 디퓨전을 결합하고 독립적인 디퓨전 타임스텝을 활용하여 시각 분기 공동 훈련을 가능하게 했습니다.
연구 결과, PWM-ArtGen은 기존 모델보다 우수한 성능을 보였으며, 다양한 실제 객체에 대한 뛰어난 제로샷 일반화 능력을 입증했습니다.