MMAudio-LABEL은 음성 생성 모델을 기반으로 음성 및 프레임 정렬된 음성 이벤트 예측을 동시에 생성하는 프레임워크입니다. Greatest Hits 데이터셋에서 온셋 감지 정확도를 46.7%에서 75.0%로, 재료 분류 정확도를 40.6%에서 61.0%로 향상시켰습니다. 음성 생성과 이벤트 예측을 함께 학습하면 더욱 해석 가능하고 실용적인 비디오-오디오 합성이 가능합니다.