연구진이 멀티샷 오디오-비디오 생성 모델 평가를 위한 MSAVBench 벤치마크를 공개했어요. MSAVBench는 비디오, 오디오, 샷, 레퍼런스 4가지 핵심 요소를 포괄하며 최대 15개의 샷으로 구성된 다양한 시나리오를 포함해요.
MSAVBench는 샷 분할 자동 수정, 주관적 지표의 인스턴스별 평가, 복잡한 판단을 위한 증거 기반 추출 등 적응형 평가 프레임워크를 제공하며, 인간 평가와 91.5%의 상관관계를 보여요.
현재 시스템은 감독자급 제어 및 정밀한 오디오-비디오 동기화에 어려움을 겪고 있지만, 모듈형 또는 에이전트 기반 생성 파이프라인이 성능 격차를 좁히는 데 도움이 될 수 있다고 해요.