연구진은 장기적인 작업 수행에 어려움을 겪는 로봇 액션 실행 모델(VLA)의 성능을 개선하기 위해 'VLAS-as-Tools' 전략을 제안했습니다.
VLAS-as-Tools는 고성능 VLM 에이전트와 특화된 VLA 툴을 결합하여 장기 계획 및 다양한 물리적 작업을 분담합니다.
Tool-Aligned Post-Training(TAPT)을 통해 VLA 툴은 에이전트의 명령을 정확히 따르도록 훈련되며, 실험 결과 LIBERO-Long에서 성공률이 4.8점, RoboTwin에서 23.1점 향상되었습니다.