연구진은 인간의 주석 없이 추론 모델을 개선하는 자체 진화 패러다임을 비디오 이해에 적용하는 방법을 연구했어요. Video-Zero는 시간적으로 위치한 증거에 초점을 맞춘 annotation-free Questioner--Solver co-evolution 프레임워크를 제안합니다.
Questioner는 유용한 증거 세그먼트를 발견하고 증거 기반 질문을 생성하며, Solver는 답변하고 예측을 지원 증거와 일치시키는 역할을 합니다.
Video-Zero는 13개의 벤치마크에서 여러 비디오 VLM 백본을 개선하여 증거 중심 자체 진화의 효과와 전달 가능성을 입증했어요.