Pulse · AI 뉴스

WorldSpeech: 76개 언어 음성 데이터셋 공개, ASR 성능 63.5% 향상

WorldSpeech · 2026-05-10

자동 음성 인식(ASR)의 성능 향상을 위해 76개 언어의 음성 데이터셋인 WorldSpeech가 공개됐습니다. WorldSpeech는 65,000시간 분량의 음성-텍스트 데이터로, 의회 회의록, 국제 방송, 공개 도서 등 다양한 공공 소스로부터 수집됐습니다.

37개 언어는 200시간 이상, 28개 언어는 500시간 이상, 24개 언어는 1,000시간 이상의 데이터가 제공되며, 이는 기존 데이터셋보다 훨씬 많은 양입니다. WorldSpeech를 활용한 ASR 모델 파인튜닝은 11개 언어에서 평균 63.5%의 단어 오류율 감소를 보여줬습니다.

WorldSpeech는 ASR 연구 및 저자원 언어 지원에 기여할 것으로 기대되며, 관련 모델 개발 및 성능 개선에 활용될 수 있습니다.

##음성데이터셋##ASR##다국어##WorldSpeech
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기