Pulse · AI 뉴스

Scenema Audio: 감정 표현 음성 복제 및 음성 생성 모델 공개

r/StableDiffusion · 2026-05-13

Scenema AI가 영상 제작 플랫폼의 일부로 개발한 Scenema Audio 모델 가중치와 추론 코드를 공개했습니다. 이 모델은 감정 표현과 음성 정체성을 분리하여, 어떤 음성도 다양한 감정을 표현할 수 있도록 합니다.

Scenema Audio는 확산 모델(diffusion model)로, 기존 TTS 파이프라인과 달리 반복되거나 횡설수설하는 문제가 있을 수 있으며, 후반 편집 작업이 필요합니다.

모델은 Docker 컨테이너로 제공되며, GPU 메모리에 따라 다양한 설정 옵션을 지원합니다.

##음성복제##TTS##오픈소스##ScenemaAudio##AI

매일 핵심 AI 소식을 한국어로, 빠르게