GLM-ASR-Nano-2512는 15억 개의 파라미터를 가진 강력한 음성 인식 모델로, 다양한 벤치마크에서 OpenAI Whisper V3를 능가하는 성능을 보여줘요.
광동어(粤语)를 포함한 방언 지원과 저음성 음성 인식에 특화되어 있으며, Wenet Meeting 벤치마크에서 평균 오류율 4.10%로 동급 오픈 소스 모델 중 가장 낮은 수치를 기록했어요.
transformers 라이브러리를 통해 쉽게 통합할 수 있으며, vLLM 및 SGLang과 같은 추론 프레임워크도 지원하여 활용도를 높였어요.