연구진이 다중 오디오·비디오 생성 모델 평가를 위한 MSAVBench를 공개했어요. 기존 벤치마크의 한계를 극복하고, 비디오, 오디오, 샷, 레퍼런스 4가지 차원을 포괄하는 종합적인 평가를 제공합니다. MSAVBench는 인간 평가와 높은 상관관계를 보이며, 현재 모델들이 디렉터 수준의 제어 및 정밀한 오디오·비주얼 동기화에 어려움을 겪는다는 점을 밝혀냈습니다.