연구진은 음성 이해와 생성을 통합하는 WavCube라는 새로운 모델을 개발했어요. WavCube는 기존 방식보다 8배 더 작은 크기로 음성 표현을 압축하면서도 뛰어난 성능을 보여줍니다.
두 단계 학습 방식으로 불필요한 정보는 제거하고 음성 세부 사항을 추가하여 음성 재구성, 음성 생성, 음성 향상 등 다양한 작업에 활용할 수 있습니다.
WavCube는 SUPERB-SG 벤치마크에서 음성 향상, 분리, 변환 작업에서 뛰어난 성능을 보이며, 관련 코드와 체크포인트는 GitHub에서 확인할 수 있습니다.