Pulse · AI 뉴스

Video Active Perception: 비전-언어 모델 기반 장문 비디오 이해 효율성 극대화

Video Active Perception · 2026-05-03

연구팀은 비전-언어 모델(VLM)의 장문 비디오 질문 답변(QA) 성능 향상을 위해 'Video Active Perception(VAP)'이라는 새로운 방법을 제시했어요.

VAP는 능동적 인지 이론에서 영감을 받아 핵심 프레임 선택을 데이터 획득으로 보고, 텍스트 기반 비디오 생성 모델을 활용하여 사전 지식을 활용합니다.

EgoSchema, NExT-QA 등 장문 비디오 QA 데이터셋에서 GPT-4o, Gemini 1.5 Pro, LLaVA-OV 대비 최대 5.6배 프레임 효율성을 높였습니다.

##비디오QA##VLM##능동적인지##장문비디오##VideoActivePercepti

매일 핵심 AI 소식을 한국어로, 빠르게