Pulse · AI 뉴스

MisoLabs, 80억 규모 텍스트 음성 변환 모델 'MisoTTS' 공개

MisoLabs · 2026-06-03

MisoLabs가 Sesame CSM 아키텍처 기반 텍스트 음성 변환 모델 'MisoTTS'를 공개했어요. 이 모델은 Mimi 오디오 코드를 생성하며, Llama 3.2 스타일의 백본과 작은 오디오 디코더를 사용해요.

고품질 대화형 음성 생성과 프롬프트 오디오 기반 음성 이어가기에 최적화됐으며, Hugging Face에서 모델을 다운로드할 수 있어요.

##TTS##MisoLabs##오디오

매일 핵심 AI 소식을 한국어로, 빠르게