Pulse · AI 뉴스

어떻게 지시문이 음성을 형성하는가? 스타일 캡션 텍스트 음성 변환의 교차 어텐션 해석

CapSpeech-TTS · 2026-06-19

연구진이 스타일 캡션 텍스트 음성 변환 모델(CapSpeech-TTS)의 교차 어텐션 해석을 위해 새로운 프레임워크를 제안했어요. 스타일 캡션 토큰이 음파 형성에 미치는 영향을 분석한 결과, F0와 에너지에 연관되어 초기 단계와 깊은 레이어에서 정점이라는 사실을 발견했어요.

스타일 캡션 토큰은 콘텐츠 토큰보다 시간적 변동성이 낮아 전역 조건임을 확인했으며, 어텐션 엔트로피는 네트워크가 스타일을 가장 중요하게 선택하는 단계에서 최소값을 기록했어요.

이번 연구는 자연어 지시문이 음성 확산 모델의 교차 어텐션에 미치는 영향을 분석한 최초의 사례예요.

##TTS##교차어텐션##스타일캡션##CapSpeech##음성변환
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기