연구진은 로봇 조작을 위한 데이터를 대규모로 생성하는 방법으로 인간 동영상 학습을 제안했어요. 하지만 손-물체 상호작용 추정의 어려움과 인간-로봇 구현 격차로 인해 RGB 동영상 활용이 제한적이었어요. Do as I Do 알고리즘은 단안 RGB 인간 동영상을 다지정한 로봇 손으로 재구성하고 재타겟팅하여 로봇이 실행 가능한 조작 데이터를 생성해요.
Do as I Do는 다양한 시점에서 촬영된 인간 동영상에서 손-물체 상호작용을 재구성하고, 이를 실제 세계에서 실행 가능한 동작 시퀀스로 재타겟팅해요. 실험 결과, 기존 방식보다 손-물체 상호작용 추정 및 조작 궤적 추출 성능이 우수했어요.
연구진은 실험을 통해 인간 데이터를 수집하기 위한 실용적인 가이드라인을 제시하며, Do as I Do 알고리즘의 효용성을 입증했어요.