연구진은 텍스트 설명에 의존하지 않고 계획 및 의사 결정을 위한 시각적 세계 모델을 구축하는 새로운 프레임워크를 제안했어요. 자가 증류와 강화 학습을 결합하여 비디오 생성 모델에서 작업 해결 능력을 이끌어내요. 연구 결과, Executor는 VLM 기반 평가 프로토콜에서 Demonstrator를 능가하고 로봇 작업에 경쟁력 있는 성능을 보여줬어요.
Vision-Language 모델이 후보 작업과 단계별 해결책을 생성하고, 이를 기반으로 비디오 확산 모델(Demonstrator)의 동작을 Executor에 증류하는 방식으로 작동해요. Executor는 이미지와 짧은 작업 프롬프트만으로 조건부 작업 해결을 수행해요.
WorldTasks-Benchmark와 DreamGen 로봇 벤치마크 실험에서 Executor는 Demonstrator보다 우수한 성능을 보였으며, VLM 피드백을 활용한 강화 학습으로 더욱 개선됐어요.