Pulse · AI 뉴스

Whisper 디코더 불일치 문제 해결: 드라비다어 및 저자원 언어 지원 개선

Whisper · 2026-06-08

Whisper 모델이 드라비다어에서 높은 단어 오류율(WER)을 보이는 원인을 언어적, 데이터셋 분석을 통해 밝혀냈습니다. 드라비다어는 긴 단어, 다양한 어휘, 낮은 반복률로 인해 토큰 분포가 희소하고 문자 단위 치환 오류가 빈번하게 발생합니다. 디코더 수준 개선 방법인 가중 어텐션과 자기 조건화를 도입하여 저자원 및 agglutinative 언어의 WER을 줄였습니다.

가중 어텐션은 어텐션 소스를 적응적으로 균형 있게 조정하고, 자기 조건화는 중간 예측을 재주입하여 토큰 일관성을 향상시킵니다. 합성 토큰 반복 실험은 비현실적이었지만, 이 두 가지 방법은 실제 성능 향상을 가져왔습니다. 이 연구는 Whisper 모델의 다국어 음성 인식 성능을 개선하는 데 기여합니다.

연구 결과는 Whisper 모델의 성능을 저자원 언어 환경에서 개선할 수 있는 가능성을 보여주며, 향후 유사한 문제 해결에 활용될 수 있습니다.

##음성인식##Whisper##드라비다어##저자원언어##딥러닝
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기