Pulse · AI 뉴스

UniSonate: 텍스트 지시를 통한 음성, 음악, 음향 효과 생성을 위한 통합 모델

UniSonate · 2026-04-24

연구진은 음성, 음악, 음향 효과 생성 작업을 통합하는 새로운 프레임워크인 UniSonate를 선보였어요.

UniSonate는 텍스트 지시를 통해 다양한 오디오를 생성하며, 음향 효과를 구조화된 시공간 잠재 공간에 투영하는 새로운 토큰 주입 메커니즘을 사용해요.

UniSonate는 TTS, TTM, TTA 작업에서 뛰어난 성능을 보이며, 다양한 오디오 데이터에 대한 공동 훈련을 통해 구조적 일관성과 운율 표현력을 향상시켰어요.

##음성합성##음악생성##오디오모델링##UniSonate##MM-DiT

매일 핵심 AI 소식을 한국어로, 빠르게