연구진은 다중 객체 추적의 어려움 분포가 긴 꼬리를 가진다는 점에 주목했어요. 기존 추적기는 쉬운 프레임은 잘 처리하지만 어려운 프레임에서는 실패하는 경우가 많습니다. 연구진은 비디오 객체 분할(VOS) 모델을 활용하여 어려운 프레임에서 객체 ID를 유지하는 선택적 마스크 전파 기법을 제안했습니다.
이 기법은 추적기가 어려움을 겪는 프레임에서만 VOS 모델로 전환하며, VOS 모델의 예측이 추적기의 ID 할당과 일치하면 기존 추적기 출력을 유지합니다. 이 방법은 학습 없이 작동하며, 추적기와 VOS 모델을 블랙박스로 취급하여 더 강력한 VOS 모델로 교체할 수 있습니다.
DanceTrack 데이터셋에서 여러 추적기를 개선했으며, SportsMOT 데이터셋에서 86.8 HOTA로 최고 성능을 달성했습니다.