연구진은 음성 인식(ASR) 평가 지표인 단어 오류율(WER)이 스크립트 불일치로 인해 오류를 과대평가할 수 있다는 문제를 제기했어요.
스크립트 정규화된 단어 오류율(SN-WER)을 제안하여, 참조 및 가설 텍스트를 언어별 표준 스크립트로 변환한 후 WER을 계산하는 방식으로 이 문제를 해결해요.
5개 인도어 언어 데이터셋에서 SN-WER을 평가한 결과, 일부 데이터셋에서 모델 간 성능 차이를 최대 12%까지 감소시켰으며, 인위적인 로마 문자화로 인한 WER 증가를 67% 완화했어요.