연구진은 음성, 음악, 음향 효과 생성 작업을 통합하는 새로운 프레임워크인 UniSonate를 선보였어요. UniSonate는 텍스트 지시를 통해 다양한 오디오를 생성하며, 음향 효과를 구조화된 시공간 잠재 공간에 투영하는 새로운 토큰 주입 메커니즘을 사용해요. UniSonate는 TTS, TTM, TTA 작업에서 뛰어난 성능을 보이며, 다양한 오디오 데이터에 대한 공동 훈련을 통해 구조적 일관성과 운율 표현력을 향상시켰어요.