연구진이 파형 공간에서 직접 고음질 오디오를 생성하는 WavFlow 프레임워크를 공개했어요. 기존 방식처럼 중간 표현을 사용하지 않아 복잡성을 줄이고 정보 손실을 최소화했어요. WavFlow는 파형 패치화와 증폭 리프팅 기술을 활용해 500만 개의 동영상-텍스트-오디오 데이터셋으로 학습했어요.
VGGSound와 AudioCaps 벤치마크에서 기존 방식과 비슷한 성능을 보여줬으며, 일부 지표에서는 더 높은 점수를 기록했어요. 특히 파형 공간에서 직접 예측하는 방식 덕분에 더 간단하고 확장 가능한 오디오 생성 모델을 만들 수 있어요.