연구팀은 개인 맞춤형 난독화 연어 인식(DSR) 모델 개발을 목표로, 사람 청취자와 Whisper-large-V3, Google Chirp 3, Omnilingual 등 세 개의 상용 ASR 시스템의 네덜란드 연어 연속 연어 인식 성능을 비교했어요.
사람 청취자와 세 개의 ASR 시스템 모두 평균 단어 오류율(WER)이 70%를 초과했는데, 이는 난독화 연어 인식이 인간과 ASR 시스템 모두에게 매우 어려운 과제임을 나타내요.
난독화 연어 음성에 대한 맞춤형 튜닝은 WER을 크게 줄였고, 개인 맞춤형 DSR 모델은 사람 청취자보다 뛰어난 성능을 보이며 일상적인 의사소통을 지원하는 데 더 가까워졌어요.