연구진은 확산 모델 생성 시 분류기를 활용하는 방식의 단점을 개선하기 위해 기존 음성 분류기를 활용한 새로운 방법을 연구했어요. 기존 분류기 표현을 재활용하는 가벼운 서브 네트워크를 학습시켜 단일 모델로 고품질 음성 합성이 가능하도록 만들었어요. 이 방법은 메모리 사용량과 계산 비용을 줄이면서 판별 모델링과 조건부 음성 합성을 연결하는 효과적인 방법이 될 수 있어요.
기존의 소음 조건 분류기를 기반으로 가벼운 서브 네트워크를 추가하여 Denoising Score Matching 방식으로 학습했어요. 이 서브 네트워크는 기존 분류기의 중간 표현을 재활용하여 학습돼요. 연구 결과, 사전 학습된 분류기는 조건부 생성에 활용될 수 있으며, 단일 모델로 고품질 음성 합성이 가능했어요.
새로운 방법은 기존 방식보다 모델 크기가 작고 계산 비용이 적게 들면서도 고품질 음성 합성을 가능하게 해요. 이는 판별 모델링과 조건부 음성 합성을 융합하는 효과적인 방법으로, 메모리 사용량과 계산 비용을 줄이는 데 기여할 수 있어요.