연구진은 레이블 없는 인간 동영상에서 일반적인 액션 패턴을 추출하는 새로운 프레임워크를 제안했어요. 이 프레임워크는 물리적 마스크를 통해 움직임과 배경을 분리하는 하이브리드 분산 VQ-VAE를 사용합니다.
인간 동영상으로 사전 훈련된 VLM은 액션 의도를 학습하고, 로봇으로 적용할 때는 액션 의도 예측과 시각적 특징 분리를 통해 액션 환각을 줄여요.
시뮬레이션과 실제 환경에서 실험 결과, 레이블 없는 인간 동영상만으로 사전 훈련된 모델은 기존 VLA 모델과 경쟁력 있는 성능을 보이며, 다운스트림 적용 시 50개의 트랙토리만 필요해요.