Pulse · AI 뉴스

희소 오토인코더로 텍스트 음성 변환 언어 모델 해석 및 제어

CosyVoice3 · 2026-06-08

연구진은 CosyVoice3 언어 모델의 핵심 구조에 BatchTopK 희소 오토인코더(SAE)를 훈련시켜 텍스트와 음성 토큰이 공유하는 표현을 분석했어요.

SAE는 음성, 텍스트, 두 가지 정보를 모두 포함하는 특징을 복구하며, 음소, 웃음, 억양, 화자 성별 등 다양한 해석 가능한 정보를 담고 있어요.

SAE 잠재 공간을 통해 제어하면 웃음 발생 확률을 0.02에서 0.79로 높이거나, 화자 성별을 바꾸고, 음성 속도를 조절하는 등 텍스트 음성 변환 합성에 영향을 줄 수 있어요.

##TTS##언어모델##희소오토인코더##해석가능성##제어

매일 핵심 AI 소식을 한국어로, 빠르게