연구진은 VLA 정책의 실패 복구 프레임워크인 ReCoVLA를 제안했어요. ReCoVLA는 기존 VLA 정책을 고정하고, VLM을 활용해 오류 모드와 복구 단계를 추론하며, 구조화된 보상을 컴파일합니다.
ReCoVLA는 VLM을 직접적인 액션 생성이나 보상 생성에 활용하는 대신, 복구 기술자 및 보상 마스크를 예측하는 데 사용하며, 시뮬레이션 환경에서 잔여 정책 훈련을 진행합니다.
시뮬레이션 환경에서 ReCoVLA는 평균 성공률을 36.7%에서 66.7%로 향상시켰고, 실제 환경에서도 61.7%의 평균 성공률을 달성했습니다.