연구진은 저자원 비라틴 문자 TTS 평가의 문제점을 지적하며, 음성 출력 실패, 오디오 언어 오류, 스크립트 충실도 부족 등의 요소를 분리하는 INSV(Intelligibility, Naturalness, Script fidelity, and Verification) 프레임워크를 제안했어요.
INSV-A는 합성을 완료하고, ASR WER/CER, 스크립트 충실도율, 오디오 언어 식별을 자동화하는 서브셋으로, PashtoTTS-Bench를 통해 Pashto TTS를 평가했어요.
OmniVoice auto 모델이 FLEURS와 Common Voice 24 데이터셋에서 가장 낮은 WER(24.1%, 27.4%)을 기록했으며, Edge GulNawaz, Edge Latifa, OmniVoice clone 순으로 뒤를 이었어요.
Whisper Large V3는 Pashto TTS 오디오에서 0.0%의 Pashto 라벨을 반환했으며, MMS-LID-4017과 SpeechBrain VoxLingua107은 Pashto 오디오를 Urdu 제어 출력과 분리했어요.