연구진이 장편 에고센트릭 비디오 참조 표현 이해 벤치마크인 LongEgoRefer를 공개했어요. 기존 벤치마크는 짧은 영상에 집중했지만, LongEgoRefer는 Ego4D 데이터셋에서 추출한 45분짜리 장편 영상을 사용해요.
LongEgoRefer는 대상 객체의 희소성, 상세한 언어적 묘사, 복잡한 상호작용을 특징으로 하며, 모델이 이벤트 발생 시점과 영상 내 객체 위치를 파악해야 하는 어려운 과제를 제시해요.
기존 모델들은 LongEgoRefer에서 상당한 어려움을 겪으며, 더욱 강력한 비디오 이해 모델의 필요성을 강조해요.