Pulse · AI 뉴스

오류는 무엇을 기준으로 할 것인가: 비정형 음성 인식의 이중 참조 벤치마킹

ASR · 2026-06-30

비정형 음성 인식에서 ASR 시스템의 성능 저하가 자주 보고되고 있어요. 비정형 음성 인식에서는 실제 발화(반복/지연 포함)와 정규 텍스트(불필요한 요소 제거) 두 가지 유효한 음성 기록 참조가 존재할 수 있어요. 대부분의 ASR 평가는 이중성을 하나의 기준점으로 혼동하고 불필요한 요소를 삭제하는 시스템에 보상을 제공하며, 실제 발화의 충실성을 무시해요.

연구진은 11개의 ASR 모델을 비정형 발음 결석 음성에 대해 두 가지 음성 기록 스타일(실제 발화와 의도)로 벤치마킹했어요. 정량적 평가는 두 음성 기록 스타일을 사용한 모델 성능 및 순위의 차이를 강조해요.

##음성인식##ASR##벤치마킹##비정형음성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기