DeVI는 텍스트 기반 합성 비디오를 활용하여 물리적으로 타당한 숙련된 에이전트 제어를 가능하게 하는 새로운 프레임워크예요.
DeVI는 생성된 비디오만으로 충분하며, 고품질 3D 운동 시연에 의존하는 기존 방법보다 숙련된 손-객체 상호작용 모델링에 더 효과적이에요.
다중 객체 장면과 텍스트 기반 액션 다양성에서 DeVI의 효과를 검증하여 비디오를 HOI(Human-Object Interaction) 인식 운동 계획기로 사용하는 장점을 보여줬어요.