최근 머신러닝 발전과 조음 데이터 확보로 음성 조형 합성이 음성 서열에 따라 제어 가능해졌어요. 하지만 품질 평가 기준이 명확하지 않다는 문제가 있어요. 이번 연구에서는 조음 음소 인식을 활용해 음성 조형 합성을 평가하는 방법을 제안했어요.
조음 특징을 활용한 음소 인식은 전통적인 평가 방식보다 조음 위치 등 음소 생성의 미묘한 차이를 더 잘 반영할 수 있다는 가설을 세웠어요. 단일 화자 RT-MRI 데이터셋에서 추출한 음향 및 조음 특징으로 신경망을 학습하고, 다양한 합성 조음 특징으로 모델을 테스트하여 성능을 비교했어요.
연구 결과, 제안하는 조음 특징 집합은 음성 조형 합성에 대한 추가적인 정보를 제공하며, 음성 조형 합성의 새로운 가능성을 탐색하는 데 도움을 줄 수 있음을 확인했어요.