연구진은 비디오 생성 모델이 생성한 영상이 현실 세계에서 얼마나 잘 작동하는지 평가하기 위해 Dream.exe라는 프레임워크를 제안했어요.
Dream.exe는 영상과 작업 설명을 기반으로 조작 영상을 합성하고, 이를 로봇 경로로 변환하여 물리 시뮬레이터에서 실행하는 방식으로 작동해요.
8개의 모델을 평가한 결과, 일부 모델은 실행 가능한 성공률을 보여주며, 인터넷 규모의 데이터에서 학습한 생성적 사전 지식이 의미 있는 물리적 지식을 포함하고 있음을 시사했어요.