Pulse · AI 뉴스

소리 인식 분석: 음운학적으로 복잡한 소수 언어의 음소 수준 ASR 분석

Qwen · 2026-04-20

연구진은 아르치와 루툴이라는 동캅카스어족의 저자원 언어에 대한 음소 수준의 자동 음성 인식(ASR)을 분석했어요. 약 50분과 1시간 20분의 오디오 데이터를 활용하여 기존 녹음 및 기록을 표준화하고 ASR 훈련 및 평가에 적합한 형태로 가공했어요.

wav2vec2 모델에 언어별 음소 어휘를 도입하여 성능을 향상시켰고, 매우 저자원 환경에서 Whisper 모델과 유사하거나 뛰어넘는 결과를 얻었어요. 단어 및 문자 오류율 외에도 상세한 음소 수준 오류 분석을 수행했어요.

연구 결과, 음소 인식 정확도는 훈련 빈도와 강한 상관관계를 보이며, 데이터 부족이 음운학적 복잡성으로 인한 오류의 상당 부분을 설명한다는 것을 보여주었어요.

##음성인식##저자원언어##ASR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기