연구진은 WAXAL 코퍼스에서 19개 아프리카 언어의 대화형 음성을 활용해 소형 엣지 ASR 모델이 거대 다국어 모델보다 성능이 우수한지 평가했어요. 엣지 모델은 매크로 평균 WER 38.0%를 달성하며, 최적의 제로샷 기준선 대비 26.9%p 감소했어요. 연구 결과, 아프리카 음성의 자발적 음성에선 전문화가 규모보다 중요해요.
크로스 도메인 평가 결과, 튜닝된 모델은 OOD 음성에서도 유용한 성능을 회복하는 반면, 제로샷 모델은 사전 훈련 분포와 일치하는 테스트 도메인에서 우위를 점해요. 19개 언어 전반에 걸쳐 원어민 감사를 실시해 언어학적으로 타당한 오류 분류 체계를 구축했어요.
WER만으로는 음절 문자 스크립트 언어의 성능을 제대로 나타내지 못하며, CER/WER 비율을 통해 문자 수준의 정확도가 WER보다 훨씬 높다는 점을 확인했어요. 연구진은 향후 아프리카 ASR 연구를 위해 모델 가중치, 튜닝 및 평가 스크립트, 정리된 WAXAL 서브셋을 공개했어요.