연구진은 단안 비디오에서 숙련된 조작 정책을 학습하는 프레임워크 V2P-Manip을 개발했어요. 이 프레임워크는 3D 자산 획득, 경로 추정, 숙련된 정책 학습을 통합하는 파이프라인을 포함해요.
공간 정렬과 물리적 일관성을 보장하기 위해 2단계 정제 과정을 도입하여 시각적 정확도와 물리적 타당성을 모두 확보했어요.
TACO 및 OakInk 벤치마크 평가 결과, 기존 방법보다 자세 정확도, 비정형 환경 적응성, 훈련 효율성이 향상된 것을 확인했어요.