연구진은 비디오 생성 모델이 시각적 충실도와 시간적 일관성은 갖추고 있지만, 물리학적 제약 조건을 따르는 운동을 생성하는 데 어려움을 겪는다는 점을 지적했어요.
MechVerse는 이미지-비디오 생성 모델의 기계적 일관성을 평가하기 위한 새로운 벤치마크로, 1,357개의 기계식 조립체로 구성된 21,156개의 합성 클립을 포함해요.
현재 모델은 외관과 부드러움을 유지하면서도 기계적으로 허용 가능한 운동을 생성하는 데 실패하며, 결합 복잡성이 증가함에 따라 오류가 증가하는 것으로 나타났어요.