Pulse · AI 뉴스

ScenA: 참조 음성 기반 다중 화자 오디오 장면 생성 기술

ScenA · 2026-06-18

ScenA는 텍스트-오디오 모델을 참조 음성과 자연어 프롬프트에 기반해 다중 화자 오디오 장면을 생성하는 기술이에요.

기존 방식과 달리 ScenA는 음성 파이프라인 없이 실제 대화의 자연스러운 음향 환경을 구현하고 화자 제어를 가능하게 해요.

참조 단축(Reference Shortcut) 문제를 해결하기 위해 고노이즈 타임스텝 분포를 사용해 텍스트 프롬프트 의존성을 높였어요.

CoVoMix2-Dialogue 벤치마크에서 기존 시스템보다 우수한 성능을 보였으며, 자연스러운 대화 음성을 생성했어요.

##오디오##AI##음성합성##ScenA

매일 핵심 AI 소식을 한국어로, 빠르게