MisoLabs가 Sesame CSM 아키텍처 기반 텍스트 음성 변환 모델 'MisoTTS'를 공개했어요. 이 모델은 Mimi 오디오 코드를 생성하며, Llama 3.2 스타일의 백본과 작은 오디오 디코더를 사용해요. 고품질 대화형 음성 생성과 프롬프트 오디오 기반 음성 이어가기에 최적화됐으며, Hugging Face에서 모델을 다운로드할 수 있어요.