연구진은 LLM 기반 TTS 모델의 감정 표현 한계를 극복하기 위해 HPRO 프레임워크를 제안했어요. HPRO는 정보 충돌 문제를 해결하기 위해 HD-Emo 코덱을 도입하여 콘텐츠와 스타일을 분리했어요. 계층적 점진적 보상 최적화를 통해 프레임, 단어, 문장 수준의 목표를 정렬하여 감정 표현과 언어 이해도를 모두 향상시켰어요.
HD-Emo 코덱은 콘텐츠와 스타일을 분리하여 감정 최적화를 콘텐츠에서 분리하여 정보 충돌 문제를 해결해요. 이를 통해 모델은 감정 표현을 더욱 효과적으로 학습할 수 있어요.
HPRO 프레임워크를 통해 개발된 모델은 기존 방식 대비 감정 표현이 크게 향상되었으며, 언어 이해도 또한 유지했어요. 코드와 음성 샘플은 GitHub에서 공개됐어요.