연구진은 시각적 관찰로부터 미래 결과를 예측하는 데 있어 월드 모델과 멀티모달 대규모 언어 모델(MLLM)이 상호 보완적인 역할을 한다고 밝혔습니다.
새로운 벤치마크 VRQABench와 OpenWorldQA를 구축하여 시각적 미래 시뮬레이션을 제어, 검증, 통합하는 방법을 연구하고, PF-OPSD라는 새로운 학습 방법을 제안했습니다.
PF-OPSD는 실제 미래 영상을 활용하여 온-정책 추론 경로를 평가하며, 실험 결과 기존 방식 대비 VRQABench와 OpenWorldQA에서 각각 10.6%, 10.9% 성능 향상을 보였습니다.