SwanVoice는 1~4명의 화자를 지원하는 대화형 텍스트 음성 변환(TTS) 모델로, 기존 모델의 표현력 유지, 제어 가능한 화자 전환, 고품질 음성 합성을 목표로 합니다.
SwanData-Speech 데이터셋을 구축하여 대화형 코퍼스를 만들고, 이를 기반으로 25Hz VAE, raw-text 컨디셔닝, flow-matching DiT를 결합한 SwanVoice 모델을 학습했습니다.
SwanBench-Speech 벤치마크에서 기존 오픈소스 모델보다 풍부함과 계층성 점수가 높게 평가되었으며, 데모는 GitHub에서 확인할 수 있습니다.