연구자가 Gladia에서 개발한 실시간 다국어 ASR 라우터는 여러 개의 작은 단일 언어 모델을 활용합니다.
Zipformer, Silero VAD, SpeechBrain 기술을 결합하여 음성 스트리밍, 음성 경계 감지, 언어 식별을 수행합니다.
인터-어터런스 코드 스위칭 벤치마크에서 13% WER을 달성하며 기존 시스템보다 성능이 뛰어납니다.
오픈소스 레포지토리가 공개되었으며, 사용자는 예상 언어만 활성화하여 시스템을 경량화하고 언어 식별 정확도를 높일 수 있습니다.