연구진은 비디오 이해 보상 모델링의 발전을 가속화하기 위해 VURB라는 새로운 벤치마크를 제안했습니다. VURB는 2,100개의 선호도 쌍과 긴 사고 추적을 특징으로 하며, 일반, 긴, 추론 지향적인 비디오 작업에 걸쳐 다수결 평가를 사용합니다.
연구진은 자동화된 파이프라인을 통해 VUP-35K라는 비디오 이해 선호도 데이터 세트를 구축하여 비디오 보상 훈련을 위한 대규모 고품질 감독을 제공했습니다.
VideoDRM과 VideoGRM이라는 차별적 및 생성적 보상 모델을 훈련하여 VURB와 VideoRewardBench에서 최첨단 성능을 달성했으며, VUP-35K가 보상 성능과 모델의 추론 능력을 향상시키는 것을 확인했습니다.