연구진은 로봇 조작을 위해 비디오 생성 모델의 상상력을 활용하는 새로운 방법인 MoLA(Mixture of Latent Actions)를 제안했습니다. MoLA는 상상된 미래 비디오를 실행 가능한 표현으로 변환하기 위해 사전 훈련된 역동 모델 혼합을 활용하여 시각적 현실과 제어 관련성의 불일치를 해결합니다. 시뮬레이션 벤치마크와 실제 로봇 조작 작업에서 MoLA는 작업 성공률, 시간적 일관성, 일반화 능력에서 일관된 성능 향상을 보였습니다.