연구진이 분 단위 오디오·비디오 생성 평가를 위한 벤치마크 LongAV-Compass를 공개했어요.
LongAV-Compass는 텍스트·이미지·비디오 기반 생성(T2AV, I2AV, V2AV) 284개 테스트 케이스를 포함하며, MLLM 기반 평가와 다양한 멀티모달 지표를 통합합니다.
벤치마크는 세분화된 품질, 일관성, 스토리텔링, 의미 정렬, 오디오·비디오 동기화 등 20개 이상의 평가 항목을 제공하며, 현재 시스템의 한계를 진단하는 데 활용될 수 있어요.