연구진은 카메라를 제어하여 3D 공간에서 목표물을 추적하는 '시각적 능동 추적(VAT)'의 정확도와 안정성을 높이는 OA-VAT 파이프라인을 제안했어요.
OA-VAT는 시각적으로 유사한 방해 요소로 인한 혼란을 줄이고, 가려짐 상황에서도 효과적으로 추적할 수 있도록 세 가지 모듈을 결합했어요.
새로운 Planning-20k 데이터셋을 활용하여 학습한 OA-VAT는 기존 기술 대비 UnrealCV에서 2.2%, 실제 데이터셋에서 12.1% 향상된 성능을 보여주며, 35 FPS의 실시간 성능을 제공해요.