연구진은 아르치와 루툴이라는 동캅카스어족의 저자원 언어에 대한 음소 수준의 자동 음성 인식(ASR)을 분석했어요. 약 50분과 1시간 20분의 오디오 데이터를 활용하여 기존 녹음 및 기록을 표준화하고 ASR 훈련 및 평가에 적합한 형태로 가공했어요.
wav2vec2 모델에 언어별 음소 어휘를 도입하여 성능을 향상시켰고, 매우 저자원 환경에서 Whisper 모델과 유사하거나 뛰어넘는 결과를 얻었어요. 단어 및 문자 오류율 외에도 상세한 음소 수준 오류 분석을 수행했어요.
연구 결과, 음소 인식 정확도는 훈련 빈도와 강한 상관관계를 보이며, 데이터 부족이 음운학적 복잡성으로 인한 오류의 상당 부분을 설명한다는 것을 보여주었어요.