연구진은 인간 데모 영상에서 학습하여 실제 로봇에 바로 적용 가능한 Dexterous Point Policy 프레임워크를 개발했어요. 3D 키포인트 표현을 활용하여 인간과 로봇의 차이를 극복하고, 로봇 데이터 수집 없이도 정교한 손 제어 정책을 학습할 수 있도록 했습니다.
Dexterous Point Policy는 손목과 손가락 끝의 키포인트 정렬을 통해 인간 행동과 로봇 행동의 유사성을 활용하며, 다양한 피크 앤 플레이스 및 도구 사용 작업에서 75.0%의 성공률을 기록했어요.
새로운 프레임워크는 다중 객체 환경 및 새로운 객체 카테고리에 강하게 일반화되며, 기존 VLA 방식의 1.0% 성공률을 훨씬 능가하는 성능을 보여줘요.