연구진은 영상 속 중요 인물 식별 시 시공간 정보를 활용하는 VIP-Net 프레임워크를 개발했어요. 기존 방식의 시간적 중요도 변화(TIS) 문제를 해결하기 위해 사회적 단서 인코더(SCE)와 시간적 중요도 정류기(TIR)를 도입했어요.
VIP-Net은 9,249개의 영상 세그먼트를 포함하는 Temporal-VIP 데이터셋에서 67.3%의 정확도를 기록하며 기존 모델(37.5%-53.9%)을 능가했어요.
Temporal-VIP 데이터셋과 코드는 Hugging Face에서 공개되었으며, LLM 기반 특징 가이드 정제를 통해 0.63의 평균 근거 유사도를 달성했어요.