연구진은 음성 향상 및 분리를 위한 플러그 앤 플레이 프레임워크인 SIPS(Stochastic Interpolant Prior for Speech)를 제안했어요. 이 프레임워크는 예측 방법과 생성적 음성 사전 지식을 결합하여 예측과 생성 모델을 연결하는 유연성을 활용하는 스토캐스틱 인터폴런트에 기반해요.
SIPS는 예측을 위한 특정 작업 드리프트와 생성적 노이즈 제거 구성 요소로 분해하여 예측 추정치를 생성 샘플링 프로세스에 직접 통합하며, NISQA 기준 +1.0의 향상을 달성했어요.
이 프레임워크는 아키텍처별 조건 설정에 의존하지 않고 특정 예측기 또는 손상 설정에 묶이지 않아 SEMamba 및 FlexIO와 같은 최신 예측기를 포괄할 수 있어요.