티베트 TTS는 부족한 음성 자원, 방언 차이, 복잡한 문자-발음 매핑으로 인해 어려움을 겪어왔습니다. 이번 연구에서는 Xingchen AGI Lab에서 개발한 대규모 음성 합성 모델을 기반으로, 업계 최초의 대규모 모델 기반 티베트 TTS 시스템을 구축했습니다.
데이터 품질 향상, 티베트 맞춤 텍스트 표현 및 토크나이저 적응, 교차 언어 적응형 훈련을 통합하여 저자원 환경에서도 안정적이고 자연스러운 티베트 음성을 생성합니다.
주관적 평가에서 음절 수준 및 BPE 기반 시스템의 MOS 점수는 각각 4.28과 4.35를 기록하며, 상용 티베트 TTS 인터페이스를 능가하는 97.6%와 96.6%의 발음 정확도를 보였습니다.