연구진은 기존 TTS 평가 지표가 음성을 제대로 반영하지 못한다는 문제점을 지적하며, 인도어 TTS의 음성 특징을 평가할 수 있는 새로운 벤치마크 PSP(Phoneme Substitution Profile)를 제시했어요.
PSP는 뒤침음 소멸률, 발화 충실도, 모음 길이 충실도, 타밀어 zha 충실도 등 6가지 차원으로 음성을 분석하며, Wav2Vec2-XLS-R 임베딩과 원어민 음성 프로브를 활용해요.
연구 결과, 상업용 TTS 시스템이 WER(단어 오류율)에서는 높은 점수를 받지만, 뒤침음이나 운율 충실도에서는 원활하지 않은 경우가 있으며, PSP는 이러한 문제점을 개선할 수 있는 가능성을 보여줬어요.