연구진은 정적인 이미지-텍스트 쌍으로 학습된 기존 VLA 모델의 한계를 극복하기 위해 World Pilot 프레임워크를 개발했어요. World Pilot은 World-Action Model(WAM)의 사전 정보를 활용하여 정책을 강화하고, 장면 진화 예측 및 예상 경로를 제공하여 성능을 향상시켰어요. 새로운 프레임워크는 LIBERO-Plus 벤치마크에서 84.7%의 최고 성공률을 달성했으며, 실제 로봇 환경에서도 뛰어난 성능을 보였어요.