연구진이 혼합 감정 음성 합성에 적합한 SLM과 CFM 모듈의 기하학적 특성을 비교 분석했어요. SLM은 명확한 저차원 감정 공간을 제공하지만, CFM은 화자-감정 얽힘으로 인해 화자 간 일반화 성능이 낮아요. 단일 사이트 제어보다 공동 제어가 감정 강도를 높이지만, 음성 품질과 정량적 제어 성능은 저하돼요.
이번 연구는 하이브리드 TTS 시스템에서 다중 사이트 활성화 제어를 위한 실질적인 지침을 제공하며, 제어 가능한 음성 생성에서 표현 기하학의 중요성을 강조해요. SLM은 화자-감정 분리 능력이 뛰어나지만, CFM은 화자-감정 얽힘 문제가 있어요. 공동 제어는 감정 강도를 높이지만 음성 품질을 저하시켜요.
연구 결과는 혼합 감정 음성 합성을 위한 다중 사이트 활성화 제어에 대한 실질적인 지침을 제공하며, 제어 가능한 음성 생성에서 표현 기하학의 중요성을 강조해요.