Pulse · AI 뉴스

SwanVoice: 자연스러운 장문 대화 음성 합성 모델 공개

SwanVoice · 2026-05-29

SwanVoice는 1~4명의 화자를 지원하는 대화형 텍스트 음성 변환(TTS) 모델로, 기존 모델의 표현력 유지, 제어 가능한 화자 전환, 고품질 음성 합성을 목표로 합니다.

SwanData-Speech 데이터셋을 구축하여 대화형 코퍼스를 만들고, 이를 기반으로 25Hz VAE, raw-text 컨디셔닝, flow-matching DiT를 결합한 SwanVoice 모델을 학습했습니다.

SwanBench-Speech 벤치마크에서 기존 오픈소스 모델보다 풍부함과 계층성 점수가 높게 평가되었으며, 데모는 GitHub에서 확인할 수 있습니다.

##TTS##대화형TTS##음성합성##SwanVoice##AI

매일 핵심 AI 소식을 한국어로, 빠르게