PROSE는 훈련 없이 비전-언어 모델을 활용해 시점 등록을 수행하는 새로운 방법입니다. 헤드 마운트 카메라로 촬영한 흐릿한 영상을 객체 단위 3D 장면 그래프로 변환하고, 동일한 VLM을 사용하여 두 영상의 객체 인스턴스를 매칭합니다.
객체 높이를 우선 정보로 활용하고, 동일/다름 쿼리를 통해 매칭을 검증하며, 가장 일관성 있는 기하학적 합의를 보이는 변환을 선택합니다.
PROSE는 학습된 파라미터 없이 깊이 센서나 그래프 어노테이션 없이 작동하며, Aria Digital Twin 및 Everyday Activities 벤치마크에서 기존 방법보다 정확한 등록 성능을 보입니다.