최신 자동 음성 인식(ASR) 시스템은 특정 화자 그룹(SG)에 대해 다른 그룹보다 성능이 더 좋다는 사실이 관찰되었어요. 이 연구는 음소 임베딩에서 발생하는 오류 유형을 분석하고, 고성능 SG와 저성능 SG 간의 임베딩 구조 차이를 파악하는 데 목표를 두고 있어요.
특정 SG에 대한 음소 분류 프로브 훈련만으로 해당 SG의 성능이 향상되는 현상은 음소 임베딩의 SG 수준 편향이 존재한다는 증거로 나타났어요.
음소 분산 수준이 높을수록 음소 예측 정확도가 낮다는 사실을 발견했으며, 두 가지 유형의 오류가 모두 존재하며 SG 수준의 불공정성의 원인이 될 수 있다고 결론 내렸어요.