VibeVoice는 TTS와 ASR을 통합한 음성 AI 모델군으로, 장문 음성 생성과 인식을 지원해요. 7.5 Hz 초저프레임 연속 음성 토크나이저와 next-token diffusion 기술을 결합하여 긴 시퀀스 처리와 오디오 품질, 계산 효율을 높였어요. 오픈소스로 공개되어 연구 및 다양한 활용 가능성을 제시하며, 음성 AI 분야의 발전에 기여할 것으로 기대돼요.