Pulse · AI 뉴스

음성 유사성을 활용한 데이터 증강: 강건한 베트남어 음성 번역을 위한 PiDA

PiDA · 2026-06-11

연구진이 베트남어 음성 번역(ST) 시스템의 오류 원인을 분석하여 음성 인식(ASR) 오류가 주요 원인임을 밝혀냈습니다. 음성 유사성을 기반으로 ASR 오류를 모방하는 데이터 증강 기법인 PiDA를 제안했습니다. PiDA를 활용한 모델은 오류가 있는 ASR 출력 번역 성능을 최대 2.04 BLEU 향상시켰습니다.

PiDA는 음성 유사성을 고려하여 단어를 교체하는 방식으로 ASR 오류를 시뮬레이션합니다. 이를 통해 ASR 오류에 강건한 음성 번역 모델을 만들 수 있습니다. 기존 모델 대비 깨끗한 텍스트 번역 성능도 소폭 향상시켰습니다.

연구 결과는 ASR 오류의 음성학적 특성을 활용하여 음성 번역 시스템의 성능을 개선할 수 있음을 보여줍니다.

##음성번역##데이터증강##베트남어##ASR##NMT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기