연구진은 Vision-Language-Action(VLA) 모델이 전문가 데모 부족으로 인해 성능에 제한을 받는다고 분석했어요. 물리적 능력(움직이는 법)과 의미적 정렬(무엇을 할 것인가)이라는 두 가지 학습 목표를 분리하는 Task-Agnostic Pretraining(TAP) 프레임워크를 제안했어요. TAP은 레이블이 없는 상호 작용 데이터로 운동 우선 정보를 학습한 후, 소량의 전문가 데이터를 활용해 언어에 연결하는 방식이에요.
TAP은 SIMPLER 벤치마크에서 100만 건의 전문가 데모로 훈련된 모델과 유사한 성능을 보이면서도 훨씬 적은 양의 레이블 데이터로 학습했어요. 실제 WidowX 플랫폼에서는 카메라 변화에도 25%의 성공률을 유지하며, 기존 모델의 0% 대비 높은 안정성을 입증했어요.
연구 결과는 작업 독립적 사전 훈련이 로봇의 물리적 표현을 향상시키고 Embodied AI의 확장 가능한 경로를 제시한다는 것을 보여줘요.