Pulse · AI 뉴스

Scenema Audio: 감정 표현 음성 복제 및 음성 생성 모델 공개

r/MachineLearning · 2026-05-14

Scenema AI가 비디오 제작 플랫폼의 일환으로 개발한 Scenema Audio 모델 가중치와 추론 코드를 공개했습니다. 이 모델은 감정 표현과 음성 정체성을 분리하여 어떤 음성도 다양한 감정을 표현할 수 있도록 합니다.

Scenema Audio는 확산 모델(diffusion model)로, 기존 TTS 파이프라인과 달리 반복되거나 횡설수설하는 문제가 있을 수 있지만, 생성된 음성의 자연스러움과 감정 전달력은 뛰어납니다.

모델은 Docker 컨테이너로 제공되며, GPU 메모리에 따라 다양한 설정 옵션을 지원합니다. Scenema AI는 이 모델을 통해 오디오 기반 비디오 생성 워크플로우를 구축하고 있습니다.

##음성복제##TTS##오디오##ScenemaAudio##AI모델

매일 핵심 AI 소식을 한국어로, 빠르게