연구팀이 비디오를 여러 이벤트로 분할하여 이해하는 새로운 방식인 EVIS를 제안했어요. 기존 방식의 복잡성 문제를 해결하고, 텍스트 지침을 활용해 비디오를 이벤트 단위로 분할합니다. EVIS는 객체와 픽셀 정보를 결합하여 장기 비디오에서 타겟 추적 성능을 향상시켰어요.
EVIS는 자연어 표현이 비디오를 여러 이벤트로 나누는 방식을 모방하여, 각 이벤트별로 이해하기 쉬운 방식으로 복잡한 비디오 콘텐츠를 처리합니다. 5개의 공개 벤치마크에서 EVIS의 우수한 성능이 입증되었어요.
연구팀은 EVIS에서 Event Query를 활용해 비디오를 단순 이벤트로 분할하고, 이벤트 기반 시각-텍스트 특징을 추출하여 계층적인 비디오 이해를 가능하게 했습니다. Object-Pixel-Hybrid Learning을 통해 장기 비디오에서 타겟 추적 정확도를 높였어요.