Pulse · AI 뉴스

Parakeet TDT 0.6B CPU 추론 벤치마크: ONNX Runtime이 HF Transformers보다 37% 빠르다

ONNX Runtime · 2026-06-05

nvidia/parakeet-tdt-0.6b-v3 모델의 CPU 추론 벤치마크를 진행한 결과, ONNX Runtime이 Hugging Face Transformers bfloat16보다 37% 더 빠른 속도를 보였어요.

ONNX Runtime은 연산자 퓨전과 AVX2 최적화 덕분에 PyTorch CPU 경로보다 더 효율적으로 작동하며, 메모리 사용량은 2.7GB로 높아요.

GGUF Q6_K는 메모리 효율성을 위해 처리량을 희생하며, 928MB의 낮은 메모리 사용량과 99.8%의 높은 CPU 사용률을 보여요.

TTS 음성 합성 방식에 따라 단어 인식률(WER)이 크게 달라질 수 있으며, gTTS는 LibriSpeech를 더 잘 반영하는 CPU 추론 성능 지표로 볼 수 있어요.

##모델출시##벤치마크##ONNXRuntime

매일 핵심 AI 소식을 한국어로, 빠르게