Pulse · AI 뉴스

FalAR: 유럽 포르투갈어 의회 회의록 음성 데이터셋 출시

FalAR · 2026-05-26

연구진이 유럽 포르투갈어(EP) 음성 인식 성능 향상을 위해 의회 회의록 음성 데이터셋 'FalAR'을 공개했어요. FalAR은 약 20년간의 5,800시간 분량의 음성 데이터를 담고 있으며, 4,850시간은 연설자 정보(나이, 성별, 정치 성향 등)가 함께 제공돼요.

최첨단 ASR 모델을 활용해 음성 데이터를 전사하고, 데이터 정렬 정확도와 ASR 성능 간의 균형을 평가한 결과, FalAR을 사전 학습 데이터로 활용 시 최대 14% WER 성능 향상을 확인했어요.

EP는 브라질 포르투갈어에 비해 화자 수가 적어 음성 데이터 자원이 부족한 상황인데, 이번 데이터셋 공개로 EP 사용자 대상 음성 기반 시스템 성능 향상에 기여할 것으로 기대돼요.

##음성데이터##유럽포르투갈어##ASR##데이터셋
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기