PASQA는 억양 오류에 초점을 맞춘 음성 품질 평가 모델입니다. 억양 오류를 제어하는 TTS 시스템을 활용해 억양 품질 점수를 생성하고 모델을 학습했습니다. 실험 결과, PASQA는 기존 모델보다 억양 오류 심각도에 따른 순위를 정확하게 평가하고 인간의 판단과 더 높은 일치도를 보입니다.
코드와 데이터는 GitHub에서 공개됐습니다. 기존 MOS 예측 모델은 전체적인 자연스러움만 평가하지만, PASQA는 억양 오류와 같은 국소적인 문제에 민감하게 반응합니다. Mora-conditioned fusion, ranking loss 등 다양한 기술을 활용했습니다.