연구진은 상용 TTS 모델의 성능을 따라올 수 있도록, 기존의 비-인도어 기반 모델에 최소한의 개입만으로 인도어(텔루구, 타밀, 힌디어) TTS를 구현하는 방법을 제시했어요.
BUPS(Brahmic Unified Phoneme Space), LoRA 어댑터, 음성 프롬프트 복구 레시피를 결합하여 상용 수준의 음성 품질을 달성했으며, 상용 TTS 학습 데이터를 전혀 사용하지 않았어요.
연구 결과, Praxy Voice는 상용 모델과 유사하거나 약간 더 나은 성능을 보였으며, 코드 믹싱 환경에서는 IndicF5 모델과 함께 사용되어 성능을 더욱 향상시켰어요.