Scenema AI가 감정 표현과 음성 아이덴티티가 분리된 새로운 음성 생성 모델 'Scenema Audio'를 공개하며, 모델 가중치와 추론 코드를 함께 제공합니다.
이 모델은 감정 표현을 텍스트로 지정하고, 음성 아이덴티티는 참고 음성을 통해 설정하는 방식으로, 어떤 음성도 어떤 감정을 표현할 수 있도록 설계되었습니다.
디퓨전 모델 기반으로 작동하며, 반복 및 횡설수설 문제가 있을 수 있지만, 후반 편집 워크플로우에 적합하며, 기존 TTS 시스템보다 자연스러운 음성을 생성합니다.
Docker REST API 형태로 제공되며, GPU 메모리에 따라 다양한 설정 옵션을 지원하며, ComfyUI 노드 지원도 계획 중입니다.