Pulse · AI 뉴스

LASE: 언어 적대적 스피커 인코딩을 통한 인도어 스크립트 간 동일성 보존

WavLM · 2026-05-02

연구진은 다국어 음성 복제에 사용되는 스피커 인코더가 음성 발화 스크립트와 관계없이 동일한 스피커를 동일하게 취급해야 한다고 주장합니다.

WavLM-base-plus-sv는 음성 스크립트 변경 시 절대 코사인 유사도가 0.082 감소하고 ECAPA-TDNN은 0.105 감소하는 성능 저하를 보였습니다.

LASE (Language-Adversarial Speaker Encoder)는 스피커 정보를 유지하면서 언어 정보를 제거하는 방식으로 훈련되어, 스크립트 간 성능 차이를 현저히 줄였습니다.

##스피커인코딩##음성복제##LASE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기