Dolphin-CN-Dialect는 중국 및 방언 환경에 특화된 스트리밍 ASR 모델로, 이전 버전에 비해 데이터 처리, 토큰화, 학습 안정성, 데이터 샘플링 전략이 개선되었습니다.
데이터 불균형 문제를 해결하기 위해 온도 기반 샘플링 전략을 도입하여 표준 중국어와 저자원 방언의 균형을 맞추고 방언 인식 성능을 향상시켰습니다.
실험 결과, Dolphin-CN-Dialect는 기존 Dolphin 대비 방언 인식 정확도 향상과 CER 감소를 달성했으며, 최신 오픈소스 ASR 모델과 경쟁력 있는 성능을 유지합니다.