Pulse · AI 뉴스

연속 디퓨전 음성 언어 모델의 확장 특성 분석

arXiv cs.CL · 2026-04-27

연구진은 텍스트 기반 모델에 비해 성능이 떨어지는 음성 언어 모델(SLM)의 확장 가능성을 조사했어요.

연속 디퓨전(CD) SLM은 기존 방식의 한계를 극복할 수 있는지 분석하고, 새로운 pJSD 지표를 도입하여 음성 품질을 측정했어요.

16B 파라미터 규모의 CD SLM을 구축하여 감정적이고 다국어 음성 생성이 가능했지만, 장문 일관성 확보는 여전히 어려운 과제로 남아있어요.

##음성언어모델##디퓨전모델##SLM##pJSD##확장성

매일 핵심 AI 소식을 한국어로, 빠르게