Pulse · AI 뉴스

비디오 이해 보상 모델링: 강력한 벤치마크와 뛰어난 성능의 보상 모델

VideoDRM · 2026-05-09

연구진은 비디오 이해 보상 모델링의 발전을 가속화하기 위해 VURB라는 새로운 벤치마크를 제안했습니다. VURB는 2,100개의 선호도 쌍과 긴 사고 추적을 특징으로 하며, 일반, 긴, 추론 지향적인 비디오 작업에 걸쳐 다수결 평가를 사용합니다.

연구진은 자동화된 파이프라인을 통해 VUP-35K라는 비디오 이해 선호도 데이터 세트를 구축하여 비디오 보상 훈련을 위한 대규모 고품질 감독을 제공했습니다.

VideoDRM과 VideoGRM이라는 차별적 및 생성적 보상 모델을 훈련하여 VURB와 VideoRewardBench에서 최첨단 성능을 달성했으며, VUP-35K가 보상 성능과 모델의 추론 능력을 향상시키는 것을 확인했습니다.

##비디오##보상모델링##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게