연구진은 실제 환경에서 음성 인식이 어려움을 겪는 '음향 강건성 병목 현상'을 해결하기 위해 Mega-ASR 프레임워크를 제안했어요. Mega-ASR은 실제 음향 현상을 모방한 대규모 데이터셋과 점진적인 음향-의미 최적화를 결합합니다. 실험 결과, 기존 시스템 대비 VOiCES R4-B-F 벤치마크에서 45.69%의 성능 향상을 기록했어요.