Pulse · AI 뉴스

Microsoft VibeVoice, ggml 포트로 CPU/Metal/Vulkan에서 구동…Python 없이 추론 가능

VibeVoice · 2026-05-05

Microsoft의 VibeVoice(음성 복제 기능)를 순수 C++ ggml로 포팅한 vibevoice.cpp 프로젝트가 공개되었습니다. 이 프로젝트는 TTS, 장문 ASR, 화자 분리 기능을 제공하며, CPU, CUDA, Metal, Vulkan 백엔드를 지원합니다.

TTS는 30초 참조 클립을 통해 24kHz 음성 생성, ASR은 7B 파라미터 모델로 JSON 세그먼트 반환하며, 최대 17분 오디오 처리 가능합니다. LocalAI 팀에서 개발했으며, Hugging Face에서 관련 모델을 다운로드할 수 있습니다.

Microsoft Python + Transformers + vLLM 플러그인과 비교했을 때, Python 의존성 없이 추론이 가능하며, CI 환경에서 100% 단어 재현율을 보장합니다. 현재 CPU 환경에서 최대 26GB 메모리가 필요하며, 향후 그래프 재사용 최적화가 필요합니다.

##TTS##ASR##VibeVoice##ggml##LocalAI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기