Pulse · AI 뉴스

빠른 음성 인식 위한 최소 베이즈 위험 디코딩

arXiv cs.CL · 2026-06-16

Non-autoregressive (NAR) 음성 인식 디코딩은 병렬 처리를 통해 속도를 높이지만, 기존 방식보다 성능이 저하되는 한계가 있어요.

연구진은 NAR 모델 출력 확률에서 추출한 샘플을 활용해 기대 효용을 최대화하는 새로운 NAR-MBR 디코딩 프레임워크를 제안했어요.

LibriSpeech, Switchboard, AMI, 웹 프레젠테이션 코퍼스 실험 결과, 기존 NAR 디코딩보다 성능이 뛰어나고 AR 디코딩보다 빠르게 작동하는 것으로 나타났어요.

##음성인식##NAR##디코딩##MBR

매일 핵심 AI 소식을 한국어로, 빠르게