연구진은 CosyVoice3 언어 모델의 핵심 구조에 BatchTopK 희소 오토인코더(SAE)를 훈련시켜 텍스트와 음성 토큰이 공유하는 표현을 분석했어요.
SAE는 음성, 텍스트, 두 가지 정보를 모두 포함하는 특징을 복구하며, 음소, 웃음, 억양, 화자 성별 등 다양한 해석 가능한 정보를 담고 있어요.
SAE 잠재 공간을 통해 제어하면 웃음 발생 확률을 0.02에서 0.79로 높이거나, 화자 성별을 바꾸고, 음성 속도를 조절하는 등 텍스트 음성 변환 합성에 영향을 줄 수 있어요.