Qwen-RobotWorld는 자연어 기반의 통합된 로봇 세계 모델로, 로봇 조작, 자율 주행, 실내 내비게이션 등 다양한 분야에서 시각적 미래 궤적을 예측합니다.
Double-Stream MMDiT와 MLLM Action Encoding을 통해 Qwen2.5-VL 의미론과 비디오-VAE 잠재 공간을 결합하고, 860만 개의 비디오-텍스트 데이터셋을 활용하여 학습했습니다.
Qwen-RobotWorld는 정책 학습 증강, 가상 환경 평가, 언어 기반 계획 신호 제공 등 세 가지 주요 응용 분야를 제시하며, EWMBench에서 1위를 차지했습니다.