Non-autoregressive (NAR) 음성 인식 디코딩은 병렬 처리를 통해 속도를 높이지만, 기존 방식보다 성능이 저하되는 한계가 있어요.
연구진은 NAR 모델 출력 확률에서 추출한 샘플을 활용해 기대 효용을 최대화하는 새로운 NAR-MBR 디코딩 프레임워크를 제안했어요.
LibriSpeech, Switchboard, AMI, 웹 프레젠테이션 코퍼스 실험 결과, 기존 NAR 디코딩보다 성능이 뛰어나고 AR 디코딩보다 빠르게 작동하는 것으로 나타났어요.