연구진은 텍스트 기반 모델에 비해 성능이 떨어지는 음성 언어 모델(SLM)의 확장 가능성을 조사했어요. 연속 디퓨전(CD) SLM은 기존 방식의 한계를 극복할 수 있는지 분석하고, 새로운 pJSD 지표를 도입하여 음성 품질을 측정했어요. 16B 파라미터 규모의 CD SLM을 구축하여 감정적이고 다국어 음성 생성이 가능했지만, 장문 일관성 확보는 여전히 어려운 과제로 남아있어요.