연구진이 텍스트-이미지 확산 모델을 활용한 새로운 비지도 시각 객체 추적 방법 'Diff-Tracking'을 개발했어요. Diff-Tracking은 확산 모델을 텍스트와 이미지 간의 연결고리로 활용하여, 초기 프레임에서 객체를 식별하는 프롬프트를 학습하고, 이후 프레임에서 모션 정보를 기반으로 프롬프트를 업데이트해요. 연구 결과, Diff-Tracking은 6개의 어려운 추적 데이터셋에서 기존 방법보다 뛰어난 성능을 보여줬어요.