연구팀은 비전-언어 모델(VLM)의 장문 비디오 질문 답변(QA) 성능 향상을 위해 'Video Active Perception(VAP)'이라는 새로운 방법을 제시했어요.
VAP는 능동적 인지 이론에서 영감을 받아 핵심 프레임 선택을 데이터 획득으로 보고, 텍스트 기반 비디오 생성 모델을 활용하여 사전 지식을 활용합니다.
EgoSchema, NExT-QA 등 장문 비디오 QA 데이터셋에서 GPT-4o, Gemini 1.5 Pro, LLaVA-OV 대비 최대 5.6배 프레임 효율성을 높였습니다.