Pulse · AI 뉴스

MMAudio-LABEL: 음성 이벤트 라벨링을 위한 음성 생성 기술

MMAudio-LABEL · 2026-05-01

MMAudio-LABEL은 음성 생성 모델을 기반으로 음성 및 프레임 정렬된 음성 이벤트 예측을 동시에 생성하는 프레임워크입니다.

Greatest Hits 데이터셋에서 온셋 감지 정확도를 46.7%에서 75.0%로, 재료 분류 정확도를 40.6%에서 61.0%로 향상시켰습니다.

음성 생성과 이벤트 예측을 함께 학습하면 더욱 해석 가능하고 실용적인 비디오-오디오 합성이 가능합니다.

##음성생성##오디오##라벨링##AI

매일 핵심 AI 소식을 한국어로, 빠르게