연구진은 Vision-Language-Action(VLA) 모델이 전문가 데모 부족으로 인해 성능에 한계가 있다고 밝혔습니다. 물리적 역량(움직이는 법)과 의미적 정렬(무엇을 할 것인가)이라는 두 가지 학습 목표를 분리하여 작업 독립적 사전 훈련(TAP)이라는 새로운 프레임워크를 제안했습니다. SIMPLER 벤치마크에서 TAP은 100만 건의 전문가 데모로 훈련된 모델과 비슷한 성능을 보이면서 훨씬 적은 양의 레이블 데이터만 사용했습니다.
TAP은 먼저 저렴하고 레이블이 없는 상호 작용 데이터(오프태스크 경로, 자율 로봇 플레이 포함)를 활용하여 자기 지도 Inverse Dynamics 목표를 통해 전이 가능한 운동 사전 지식을 학습합니다. 가벼운 두 번째 단계에서는 최소한의 전문가 데이터를 사용하여 이러한 사전 지식을 언어에 연결합니다. 실제 WidowX 플랫폼에서 TAP은 카메라 교란 시 인터넷 규모의 기준선이 0%로 붕괴되는 상황에서도 25%의 성공률을 유지했습니다.
연구 결과, 작업 독립적 사전 훈련은 강력하고 전이 가능한 물리적 표현을 생성하며 Embodied AI의 확장 가능한 경로를 제시합니다.