AMAPVOICE가 20만 시간의 데이터로 훈련한 경량 TTS 시스템 'PilotTTS'를 공개했어요. 기존 시스템 대비 훨씬 적은 데이터로도 뛰어난 성능을 냈어요.
PilotTTS는 오픈소스 도구만으로 처리한 데이터와 Q-Former 기반 아키텍처를 활용해 음성 복제, 감정 합성, 방언 합성 등 다양한 기능을 지원해요.
Seed-TTS Eval 벤치마크에서 PilotTTS는 기존 시스템보다 낮은 WER(1.50%)과 CER(0.87%)을 기록하며 화자 유사성에서도 우수한 성능을 보여줬어요.