연구진은 다국어 음성 복제에 사용되는 스피커 인코더가 음성 발화 스크립트와 관계없이 동일한 스피커를 동일하게 취급해야 한다고 주장합니다.
WavLM-base-plus-sv는 음성 스크립트 변경 시 절대 코사인 유사도가 0.082 감소하고 ECAPA-TDNN은 0.105 감소하는 성능 저하를 보였습니다.
LASE (Language-Adversarial Speaker Encoder)는 스피커 정보를 유지하면서 언어 정보를 제거하는 방식으로 훈련되어, 스크립트 간 성능 차이를 현저히 줄였습니다.