연구진은 인간의 조작 기술을 양손 로봇에 학습시키는 방법을 연구했어요. 인간 행동 데이터는 저렴하고 풍부하며 다양해서 로봇 학습을 확장하는 데 유망한 자원이에요. 하지만 인간의 행동을 로봇에 전달하는 것은 여전히 어렵고, 기존 연구는 인간을 6DoF 몸체로 취급하여 손 자세 추정의 노이즈와 인간 손가락의 접촉 패턴 차이를 간과했어요.
연구진은 인간 데이터에서 회전 포괄 액션 신호를 학습하는 것은 비효율적이며, 대신 인간과 로봇이 공유하는 액션 공간인 초기 헤드-카메라 프레임 내 상대 손목 이동 브리징 액션 표현을 제안했어요. 다양한 몸체에서 특정 액션 구성 요소가 없을 경우를 대비해 어텐션 마스킹과 섞인 액션 토큰을 활용한 π_0 유사 시각-언어-액션 모델을 구축했어요.
새로운 양손 조작 작업에서 브리징 액션은 노이즈가 많은 6DoF 인간 행동보다 인간 조작 지식을 로봇에 훨씬 효과적으로 전달하며, 인간 데이터 양에 따라 확장 가능성을 보였어요.