Scenema AI가 비디오 제작 플랫폼의 일환으로 개발한 Scenema Audio 모델 가중치와 추론 코드를 공개했습니다. 이 모델은 감정 표현과 음성 정체성을 분리하여 어떤 음성도 다양한 감정을 표현할 수 있도록 합니다.
Scenema Audio는 확산 모델(diffusion model)로, 기존 TTS 파이프라인과 달리 반복되거나 횡설수설하는 문제가 있을 수 있지만, 생성된 음성의 자연스러움과 감정 전달력은 뛰어납니다.
모델은 Docker 컨테이너로 제공되며, GPU 메모리에 따라 다양한 설정 옵션을 지원합니다. Scenema AI는 이 모델을 통해 오디오 기반 비디오 생성 워크플로우를 구축하고 있습니다.