연구진이 다양한 로봇 환경에서 활용 가능한 통합 시각-언어-행동 모델 Qwen-VLA를 개발했어요.
Qwen 모델을 기반으로 DiT 기반 액션 디코더를 활용하여 시각적 이해, 추론, 연속적인 행동 및 경로 생성을 가능하게 했어요.
다양한 데이터셋을 활용한 훈련을 통해 로봇 형태, 작업 유형, 환경 변화에 따른 일반화 성능을 확보했어요.
Qwen-VLA-Instruct는 LIBERO에서 97.9%의 정확도를 기록하는 등 여러 벤치마크에서 뛰어난 성능을 보여줬어요.