연구진이 23개 작업으로 구성된 대규모 비디오 임베딩 벤치마크 MVEB를 발표했어요. MVEB는 분류, 제로샷 분류, 클러스터링, 쌍 분류, 검색, 비디오 중심 질의응답 등 다양한 작업을 포함해요.
33개 모델을 평가한 결과, 단일 모델이 모든 분야에서 최고는 아니었고, MLLM 기반 임베딩은 분류, 클러스터링, 쌍 분류, 질의응답에서 강세를 보였어요.
오디오와 비디오를 함께 사용할 때, 오디오의 기여도는 데이터셋의 라벨 생성 방식에 따라 달라지는 것으로 나타났어요.