0xShug0가 C++/ggml 기반 오디오 모델 추론 프레임워크 'audio.cpp'를 공개했어요. 이 프레임워크는 TTS, ASR, 음성 변환 등 다양한 기능을 지원하는 12개 모델 패밀리를 통합하고 있어요.
audio.cpp는 PocketTTS에서 최대 48.40배, Vevo2에서 8.72배 빠른 성능을 보여줘요. 특히 모델이 로드된 후 재사용하는 서비스 환경에서 효율성이 높아요.
현재 CPU, CUDA, Vulkan, Metal을 지원하며, 사용자들은 다양한 하드웨어 환경에서 벤치마크 테스트와 피드백을 환영해요. GitHub 저장소를 통해 프로젝트를 확인할 수 있어요.