Pulse · AI 뉴스

Qwen-RobotWorld 기술 보고서: 언어 기반 비디오 생성을 통한 통합된 로봇 세계 모델링

Qwen · 2026-06-16

Qwen-RobotWorld는 자연어 기반의 통합된 로봇 세계 모델로, 로봇 조작, 자율 주행, 실내 내비게이션 등 다양한 분야에서 시각적 미래 궤적을 예측합니다.

Double-Stream MMDiT와 MLLM Action Encoding을 통해 Qwen2.5-VL 의미론과 비디오-VAE 잠재 공간을 결합하고, 860만 개의 비디오-텍스트 데이터셋을 활용하여 학습했습니다.

Qwen-RobotWorld는 정책 학습 증강, 가상 환경 평가, 언어 기반 계획 신호 제공 등 세 가지 주요 응용 분야를 제시하며, EWMBench에서 1위를 차지했습니다.

##Qwen##로봇##비디오##모델##세계모델

매일 핵심 AI 소식을 한국어로, 빠르게