연구진은 S3M 모델이 스피커 그룹(SG)에 대해 어떤 정보를 학습하는지 조사했어요. SID(스피커 식별) 튜닝은 음성적 변동성이 큰 SG를 증폭시키고, ASR(자동 음성 인식) 튜닝은 음성적 변동성 SG 정보를 제거하지만 의미적 변동성 SG 정보는 유지해요. 공정성 향상을 위한 ASR 알고리즘은 SGI 인코딩 정도를 변화시키지만, 이는 음성적 변동성 SG에 더 큰 영향을 미쳐요.
S3M 모델의 각 레이어가 SG 정보를 어떻게 인코딩하는지 분석하고, 다양한 SG 인코딩에 책임지는 서브 차원을 식별했어요. 연구 결과는 공정성을 높인 ASR 알고리즘 설계에 도움이 될 수 있을 것으로 기대돼요.
본 연구는 S3M 모델이 스피커의 성별, 나이, 방언, 민족 등 다양한 정보를 학습한다는 점을 밝혀냈어요.