UniSAE는 화자, 감정, 음성 콘텐츠를 통합 편집하는 새로운 프레임워크입니다. 기존 방식은 콘텐츠, 화자, 감정을 개별적으로 다루어 편집의 유연성이 떨어졌습니다.
DPPG(Discrete Phonetic PosteriorGram)라는 새로운 표현 방식을 도입하여 음성 콘텐츠를 음소 단위로 분해하고 직접 편집할 수 있습니다.
연구 결과, UniSAE는 화자와 감정을 정밀하게 제어하고 다양한 수준의 콘텐츠 편집과 세 가지 속성의 통합 수정이 가능함을 입증했습니다.