연구진이 실시간 동영상 이해 모델의 성능을 평가하는 새로운 벤치마크 'OmniPro'를 공개했어요. 기존 벤치마크의 한계를 극복하기 위해 시각 정보뿐 아니라 음성 정보도 활용하고, 모델이 스스로 응답 시점을 결정하는 방식을 채택했어요.
OmniPro는 9가지 하위 작업과 3가지 인지 수준을 포함하는 2,700개의 샘플로 구성되며, 84%의 샘플에서 음성 신호가 필요해요. 모델의 콘텐츠 이해도를 평가하는 Probe 모드와, 완전한 능동적 능력을 평가하는 Online 모드 두 가지 평가 프로토콜을 제공해요.
11개 모델 평가 결과, 음성 정보 활용은 성능 향상에 기여하지만 모델마다 편차가 크고, 시간이 지남에 따라 성능이 저하되며, 비음성 음성 인식 능력이 가장 취약하다는 점이 확인됐어요.