Pulse · AI 뉴스

Qwen-VLA: 다양한 로봇 환경에서 통일된 시각-언어-행동 모델 제시

Qwen · 2026-05-28

연구진이 다양한 로봇 환경에서 활용 가능한 통합 시각-언어-행동 모델 Qwen-VLA를 개발했어요.

Qwen 모델을 기반으로 DiT 액션 디코더를 활용하여 시각적 이해, 추론, 연속적인 행동 및 경로 생성을 가능하게 했어요.

다양한 데이터셋을 활용한 훈련과 로봇별 특성을 반영한 프롬프트 컨디셔닝을 통해 여러 로봇 플랫폼에서 성능을 유지해요.

Qwen-VLA-Instruct는 LIBERO에서 97.9%의 정확도를 기록하며, 다양한 벤치마크에서 뛰어난 성능을 보여줬어요.

##로봇##AI##Qwen##모델출시##VLA

매일 핵심 AI 소식을 한국어로, 빠르게