오디오 모델 로컬 추론 런타임 개발자 0xShug0가 C++/ggml 기반 VibeVoice 1.5B 모델 지원을 추가했어요. RTX 5090에서 93.6분 길이의 팟캐스트를 22.95분에 생성하며, Python보다 2.86배 빠른 속도를 보여줬어요. VibeVoice는 장시간 다중 화자 TTS에 적합하며, 재사용 가능한 세션, 서버 같은 사용, 안정적인 메모리 동작, CUDA 최적화 등을 목표로 개발됐어요.