연구진은 텍스트 설명에 의존하지 않고 장면 이미지 기반으로 작업 해결 능력을 가진 비디오 모델을 개발했어요. Self-distillation과 강화 학습을 결합하여 비디오 확산 모델의 행동을 증류하여 이미지와 짧은 작업 프롬프트만으로 조건부 작업을 수행하는 Executor를 만들었어요. VLM 피드백을 활용한 강화 학습으로 Executor 성능을 향상시켰어요.
WorldTasks-벤치마크와 DreamGen 로봇 벤치마크 실험 결과, Executor는 VLM 기반 평가 프로토콜에서 Demonstrator를 능가하고 로봇 작업에 경쟁력 있는 성능을 보였어요. 기존 방식 대비 비디오 작업 감독 없이 실행 지식을 이전하는 데 성공했어요.