연구진이 다양한 로봇 환경에서 활용 가능한 통합 시각-언어-행동 모델 Qwen-VLA를 개발했어요.
Qwen 모델을 기반으로 DiT 액션 디코더를 활용하여 시각적 이해, 추론, 연속적인 행동 및 경로 생성을 가능하게 했어요.
다양한 데이터셋을 활용한 훈련과 로봇별 특성을 반영한 프롬프트 컨디셔닝을 통해 여러 로봇 플랫폼에서 성능을 유지해요.
Qwen-VLA-Instruct는 LIBERO에서 97.9%의 정확도를 기록하며, 다양한 벤치마크에서 뛰어난 성능을 보여줬어요.