연구진이 읽은 음성을 자연스러운 대화형 음성으로 변환하는 새로운 접근법인 PACC(Prosodic Adjustment with Conversational Context)를 소개했어요. 기존 방식은 자연스러움과 명료성을 유지하는 데 어려움이 있었어요.
PACC는 딥러닝 기술을 활용해 음성의 억양, 강세, 리듬 등의 특징을 분석하고 수정하며, HiFi-GAN을 사용하여 음성 합성을 해요.
실험 결과, PACC는 음성 변환 성능을 크게 향상시켜 자연스러움을 높이고 모델 정확도를 개선했으며, MOS 평가에서 새로운 벤치마크를 설정했어요.