Pulse · AI 뉴스

FormalASR: 중국어 음성을 정식 텍스트로 변환하는 엔드투엔드 모델

Qwen · 2026-05-19

FormalASR은 음성을 정식 텍스트로 직접 변환하는 0.6B 및 1.7B 크기의 소형 엔드투엔드 모델 두 가지를 공개했어요. WenetSpeech-Formal과 Speechio-Formal이라는 대규모 데이터셋을 구축하여 모델 학습을 진행했어요.

FormalASR은 기존 방식 대비 최대 37.4%의 CER 감소 효과를 보이며, ROUGE-L 및 BERTScore 점수도 향상시켰어요. 별도의 LLM 후처리 없이 경량화된 온디바이스 솔루션으로 활용 가능해요.

Qwen3-ASR을 기반으로 두 가지 크기로 모델을 파인튜닝했으며, 중국어 음성을 정식 텍스트로 변환하는 새로운 접근 방식을 제시했어요.

##ASR##중국어##Qwen##FormalASR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기