대규모 언어 모델(LLM)이 저자원 언어 음성 인식(ASR) 오류를 수정하는 데 효과적인지 조사하는 연구가 진행됐어요. GPT-5.1을 활용한 실험 결과, 음성 인식 성능이 향상됐으며, 오라클 WER을 넘어섰어요. 공개 데이터셋 외에 비공개 텍스트로 구성된 오프라인 데이터셋을 활용해 데이터 오염 가능성을 차단했어요.
저자원 언어인 서부 프리슬란어를 대상으로 실험한 결과, LLM 기반 오류 수정(GER)이 대부분의 환경에서 음성 인식 성능을 개선하는 것으로 나타났어요. 오프라인 데이터셋에서도 유사한 개선 효과를 보여 LLM의 실제 수정 능력을 확인했어요.
모델의 오류 수정 패턴을 분석한 결과, LLM이 음성 인식 오류를 수정하는 구체적인 방식에 대한 통찰력을 얻을 수 있었어요.