World2VLM은 생성적 세계 모델로부터 시각 언어 모델에 공간 상상력을 주입하는 새로운 훈련 프레임워크예요. World2VLM은 초기 관찰과 카메라 경로를 기반으로 미래 시점을 합성하고, 이를 통해 공간 추론에 필요한 구조화된 감독 신호를 제공해요. SAT-Real, SAT-Synthesized, VSI-Bench, MindCube 등 다양한 벤치마크에서 기존 모델과 테스트 타임 세계 모델 결합 방식보다 성능이 뛰어나고, 효율적이에요.