RELO는 시각 객체 추적을 위해 강화 학습을 활용한 새로운 방법입니다. 기존의 수작업 기반 공간 사전 지식 대신, 강화 학습을 통해 공간 위치에 따른 위치 추적 정책을 학습합니다. RELO는 프레임 수준 IoU와 시퀀스 수준 AUC를 결합한 보상을 활용하여, LaSOText 벤치마크에서 57.5%의 AUC를 달성했습니다. 연구진은 또한 시각적 의미 일관성을 향상시키기 위해 레이어 정렬된 시간 토큰 전파를 도입했으며, 계산 비용은 미미합니다.