연구진은 복잡한 환경에서 자율 조작을 위한 새로운 문제 설정인 공간적 프롬프트 기반 시각적 경로 예측(SP-VTP)을 제시했어요. SP-VTP는 초기 공간적 프롬프트를 활용하여 조작 목표를 정의하고, 에고센트릭 시점에서 미래 엔드 이펙터 경로를 예측하는 방식이에요.
새로운 데이터셋인 EgoSPT를 구축하여 공간적 프롬프트 기반 조작 경로를 수집하고 3D 엔드 이펙터 동작을 복원했으며, 연구 결과 SPOT(Spatially Prompted Object-Target Policy) 모델이 기존 방식보다 뛰어난 성능을 보였어요.
EgoSPT와 SPOT은 공간적 프롬프팅 문제를 제시하고, 에고센트릭 조작을 위한 간단하고 확장 가능한 작업 조건으로 활용될 수 있을 것으로 기대돼요.