Qwen-RobotManip은 Qwen-VL 기반으로 구축된 일반화 가능한 Vision-Language-Action 파운데이션 모델이에요. 표현, 동작, 행동 차원을 통합 정렬하여 대규모 다원 소스 훈련을 가능하게 했고, 약 38,100시간의 사전 훈련 코퍼스를 구축했어요. RoboCasa365, LIBERO-Plus, EBench, RoboTwin 등 OOD 환경에서 기존 최고 성능 모델인 $π$0.5를 능가하는 성능을 보여줬어요.