미스트랄 AI가 빠른 속도와 생생한 음성 생성 능력을 갖춘 오픈 웨이트 TTS 모델 Voxtral-4B-TTS-2603을 공개했어요. 이 모델은 9개 주요 언어를 지원하며, 다양한 방언에도 대응할 수 있어요.
Voxtral TTS는 24kHz 오디오 출력을 지원하며, WAV, PCM, FLAC, MP3, AAC, Opus 등 다양한 포맷으로 음성 데이터를 제공해요. 또한, AI 스튜디오를 통해 음성 커스터마이징도 가능해요.
벤치마크 테스트 결과, 단일 NVIDIA H200 하드웨어에서 최대 1430.78자/초의 처리량을 보여주며, 빠른 속도와 높은 효율성을 입증했어요.