Pulse · AI 뉴스

PashtoTTS-Bench: 저자원 비라틴 문자 TTS 평가 자동화

OmniVoice · 2026-05-26

연구진은 저자원 비라틴 문자 TTS 평가의 문제점을 지적하며, 음성 출력 실패, 오디오 언어 오류, 스크립트 충실도 부족 등의 요소를 분리하는 INSV(Intelligibility, Naturalness, Script fidelity, and Verification) 프레임워크를 제안했어요.

INSV-A는 합성을 완료하고, ASR WER/CER, 스크립트 충실도율, 오디오 언어 식별을 자동화하는 서브셋으로, PashtoTTS-Bench를 통해 Pashto TTS를 평가했어요.

OmniVoice auto 모델이 FLEURS와 Common Voice 24 데이터셋에서 가장 낮은 WER(24.1%, 27.4%)을 기록했으며, Edge GulNawaz, Edge Latifa, OmniVoice clone 순으로 뒤를 이었어요.

Whisper Large V3는 Pashto TTS 오디오에서 0.0%의 Pashto 라벨을 반환했으며, MMS-LID-4017과 SpeechBrain VoxLingua107은 Pashto 오디오를 Urdu 제어 출력과 분리했어요.

##TTS##Pashto##평가##자동화##INSV

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기