Pulse · AI 뉴스

진정으로 다국어 음성 인식으로: 새로운 언어 쌍에 일반화되는 코드 스위칭 음성 인식

자동 음성 인식 · 2026-06-04

자동 음성 인식(ASR)은 인간과 AI의 상호 작용을 위한 핵심 기술이 되었어요. 하지만 코드 스위칭 ASR(CS-ASR)은 다양한 언어 쌍에 걸쳐 멀티링구얼 CS 음성 자원의 심각한 부족으로 인해 여전히 어려운 과제에 직면해 있어요.

기존 방식은 주로 합성 CS 음성 생성 또는 제한된 양의 이중 언어 데이터 세트에 대한 페어별 미세 조정으로 CS-ASR 성능을 향상시키지만, 지원해야 할 언어 수가 증가함에 따라 조합적으로 증가하는 언어 쌍마다 CS 지원을 별도로 개발해야 하므로 내재적인 확장성 제한에 직면해 있어요.

저희는 제한된 수의 '본' 언어 쌍에서 학습된 CS 기능을 모델 병합 및 도메인 일반화 방법을 통해 '미지' 언어 쌍으로 일반화할 수 있는지 조사했어요. 실험 결과 병합된 이중 언어 CS-ASR 모델은 미지 언어 쌍으로 소폭 일반화되는 것으로 나타났으며, 이는 언어 쌍 간 이중 언어 CS 기능의 제한적인 전송을 시사합니다.

##음성인식##코드스위칭##다국어##ASR##CS-ASR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기