Scenema AI가 영상 제작 플랫폼의 일부로 개발한 Scenema Audio 모델 가중치와 추론 코드를 공개했습니다. 이 모델은 감정 표현과 음성 정체성을 분리하여, 어떤 음성도 다양한 감정을 표현할 수 있도록 합니다.
Scenema Audio는 확산 모델(diffusion model)로, 기존 TTS 파이프라인과 달리 반복되거나 횡설수설하는 문제가 있을 수 있으며, 후반 편집 작업이 필요합니다.
모델은 Docker 컨테이너로 제공되며, GPU 메모리에 따라 다양한 설정 옵션을 지원합니다.