EvoGround는 사람이 직접 레이블링한 데이터 없이 원시 비디오에서 시간적 정렬을 학습하는 프레임워크입니다. 제안자와 해결사라는 두 개의 결합된 자체 진화형 에이전트로 구성되어 있습니다. 2.5K개의 원시 비디오로 학습한 EvoGround는 기존의 지도 학습 모델을 능가하는 성능을 보입니다.
제안자는 원시 비디오에서 질의-순간 쌍을 생성하고, 해결자는 이를 정렬하여 제안자에게 피드백 신호를 제공하여 서로 개선합니다. 이 자체 강화 강화 학습 루프를 통해 두 에이전트는 동일한 백본에서 시작하여 반복적으로 성능을 향상시킵니다.
EvoGround는 수동 레이블 없이 최첨단 세밀한 비디오 캡셔닝 모델로도 부상했습니다.