Scenema AI가 감정적인 TTS 모델 'Scenema Audio'를 공개했어요. 이 모델은 13개 언어를 지원하며, 48kHz 스테레오 음질을 제공합니다. 8단계로 증류되었으며, Gemma 3 12B 텍스트 인코딩을 사용하고, <action> 태그를 통해 연출 지시를 전달할 수 있습니다. RTX 4090에서 1.5배 빠른 속도로 실행되며, 16GB VRAM에 맞춰 최적화되어 있습니다.