연구팀은 비디오 객체 중심 학습에서 시간적 일관성을 유지하는 기존 방식이 불필요한 복잡성을 야기한다는 것을 밝혔습니다. 새로운 프레임워크 'Grounded Correspondence'는 학습된 예측 대신, 객체 간의 대응 관계를 활용하여 시간적 일관성을 유지합니다. 이 방식은 학습 가능한 파라미터 없이도 MOVi-D, MOVi-E, YouTube-VIS 데이터셋에서 경쟁력 있는 성능을 달성했습니다.