연구진은 시각-언어-행동(VLA) 정책을 새로운 작업에 적용할 때, 작업별 맞춤형 데이터 수집 및 미세 조정 없이 검색(retrieval)을 활용할 수 있음을 보여줬습니다.
한 번 학습된 검색 증강 정책은 저렴한 데이터로 구성된 검색 풀에 새로운 작업 데모를 추가하여 배포할 수 있으며, 파라미터 업데이트 없이 새로운 작업을 흡수합니다.
Cosmos Policy와 같은 비디오 생성 기반 세계 행동 모델(WAM)에서 검색은 거친 작업 진행 방향을 제공하고, 추가적인 시각적 일관성 신호를 통해 검색 조건부 행동을 강화합니다.