Pulse · AI 뉴스

MuseVLA: 로봇 조작을 위한 적응형 다중 모드 센싱 비전-언어-액션 모델

MuseVLA · 2026-06-16

연구팀이 RGB 카메라만 사용하는 기존 VLA 모델의 한계를 극복하기 위해 새로운 다중 모드 센싱 VLA 모델 MuseVLA를 공개했어요.

MuseVLA는 주어진 작업 지시와 시각적 맥락을 바탕으로 센서 토큰과 대상 설명을 생성하여 필요한 센서를 호출하고, 이를 통합된 중간 표현으로 변환하여 액션 생성을 돕습니다.

연구팀은 기존 RGB 비디오 데이터셋에 센서 이미지를 합성하는 데이터 합성 파이프라인을 도입하여 다중 센서 로봇 데이터셋 부족 문제를 해결했어요.

실제 로봇 환경에서 온도 가이드, 오디오 기반 객체 검색, 레이더 지원 숨겨진 객체 검색 등 다양한 작업에서 평균 80.6%의 성공률을 기록하며 기존 모델보다 성능이 뛰어났어요.

##로봇##인공지능##센서##VLA##MuseVLA

매일 핵심 AI 소식을 한국어로, 빠르게