dots.tts는 2B 파라미터의 연속 오토리거시브 TTS 파운데이션 모델로, 음성을 연속 잠재 공간에서 모델링합니다.
기존 모델과 달리, dots.tts는 예측 친화적인 연속 음성 공간 구축, 장거리 일관성 유지를 위한 풀 히스토리 컨디셔닝, 그리고 보상 없는 자기 교정 후처리 기술을 적용했습니다.
Seed-TTS-Eval 벤치마크에서 중국어/영어/중국어-hard 테스트 세트에서 각각 0.94%/1.30%/6.60%의 WER과 81.0/77.1/79.5의 SIM 점수를 기록하며 오픈소스 최고 성능을 달성했습니다.