연구진은 시각-언어-행동(VLA) 정책을 새로운 작업에 적용할 때 필요한 작업별 맞춤형 데이터 수집 및 미세 조정을 검색(retrieval)으로 대체하는 방법을 제시했어요.
한 번 학습된 검색 증강 정책은 대상 로봇(query)과 저렴한 로봇(pool)의 데모를 활용하며, 새로운 작업은 검색 풀에 추가하여 기존 파라미터를 업데이트하지 않고 데이터를 색인 방식으로 흡수해요.
Cosmos Policy와 같은 비디오 생성 기반 세계 행동 모델(WAM)에서 검색은 거친 작업 진행 방향을 제공하고, WAM의 미래 이미지 목표는 검색 조건화된 행동을 강화하는 시각적 일관성 신호를 제공해요.