Pulse · AI 뉴스

Qwen-VLA: 다양한 로봇 환경에서 시각-언어-행동 모델 통합 연구

Qwen · 2026-05-29

연구진이 다양한 로봇 환경에서 활용 가능한 통합 시각-언어-행동 모델 Qwen-VLA를 개발했어요.

Qwen 모델을 기반으로 DiT 기반 액션 디코더를 활용하여 시각적 이해, 추론, 연속적인 행동 및 경로 생성을 가능하게 했어요.

다양한 데이터셋을 활용한 훈련을 통해 로봇 형태, 작업 유형, 환경 변화에 따른 일반화 성능을 확보했어요.

Qwen-VLA-Instruct는 LIBERO에서 97.9%의 정확도를 기록하는 등 여러 벤치마크에서 뛰어난 성능을 보여줬어요.

##로봇##AI##모델출시##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게