연구진은 TTS 시스템의 자연스러움 평가 외에, 언어별 음운론적 특징 보존 여부를 평가하는 새로운 프레임워크를 제안했어요. 이 프레임워크는 인간 발음을 기준으로 합성 음성 데이터를 감사하며, 분류기를 활용해 음운론적 패턴을 분석해요. 메타의 MMS TTS를 활용해 아삼어의 굴절음조화(ATR)를 테스트한 결과, 인간 발음과 비교했을 때 합성 음성에서 음운론적 편향이 발견됐어요.
합성 음성에서 [+ATR] 중모음이 [-ATR]로 발음되는 비율이 3분의 1 정도였으며, 이는 인간 발음에서는 나타나지 않는 현상이에요. 단어 수준에서 예측된 ATR 레이블이 음성 기록 레이블보다 정확도를 보여, 의도와 실제 발음 간의 간극이 있음을 시사해요.
이 프레임워크는 특정 작업에 대한 진단 도구로 활용될 수 있으며, 가시적인 음향적 특징을 가진 다른 음운론적 대조에도 적용 가능해요.