자동 음성 인식(ASR)의 성능 향상을 위해 76개 언어의 음성 데이터셋인 WorldSpeech가 공개됐습니다. WorldSpeech는 65,000시간 분량의 음성-텍스트 데이터로, 의회 회의록, 국제 방송, 공개 도서 등 다양한 공공 소스로부터 수집됐습니다.
37개 언어는 200시간 이상, 28개 언어는 500시간 이상, 24개 언어는 1,000시간 이상의 데이터가 제공되며, 이는 기존 데이터셋보다 훨씬 많은 양입니다. WorldSpeech를 활용한 ASR 모델 파인튜닝은 11개 언어에서 평균 63.5%의 단어 오류율 감소를 보여줬습니다.
WorldSpeech는 ASR 연구 및 저자원 언어 지원에 기여할 것으로 기대되며, 관련 모델 개발 및 성능 개선에 활용될 수 있습니다.