MotiMotion은 사용자가 제공한 경로의 불완전성으로 인한 부자연스러운 영상 생성 문제를 해결하기 위해 개발된 새로운 프레임워크입니다. 시각-언어 추론기를 활용하여 1차 경로를 개선하고 2차 동작을 예측하여 자연스러운 상호작용을 유도합니다. MotiMotion은 기존 방식보다 더 자연스러운 객체 움직임과 상호작용을 보여주는 영상을 생성하며, 사용자 선호도 평가에서도 우수한 성능을 보였습니다.
새로운 벤치마크 MotiBench를 통해 상호작용 중심의 장면에서 새로운 이벤트가 발생하는 상황을 평가할 수 있습니다. MotiMotion은 기존 방식 대비 영상의 객체 행동과 상호작용의 자연스러움을 향상시킵니다.