NVIDIA의 Parakeet 음성 인식 모델을 C++/ggml로 포팅하여 Python 없이 CPU 및 GPU에서 실행할 수 있게 됐어요.
NeMo와 동일한 출력을 유지하면서 GPU에서는 최대 5배, CPU에서는 최대 1.86배 빠른 속도를 보여요.
f16, q8_0, q6_k, q5_k, q4_k 등 다양한 GGUF 양자화 모델을 제공하며, 600배 실시간 처리 속도를 자랑해요.
LocalAI 백엔드에 통합되어 OpenAI 호환 API를 통해 로컬에서 사용할 수 있으며, 코드와 모델은 GitHub 및 Hugging Face에서 확인할 수 있어요.