연구진은 복잡성 및 정보 손실을 줄이기 위해 잠재 공간 압축 없이 파형 공간에서 직접 고음질 오디오를 생성하는 WavFlow 프레임워크를 개발했어요.
WavFlow는 파형 패치화와 진폭 리프팅을 통해 오디오를 2D 토큰 그리드로 변환하고, 플로우 매칭을 통해 안정적인 최적화를 가능하게 했어요.
VGGSound 및 AudioCaps 벤치마크에서 기존 잠재 기반 방식과 유사하거나 뛰어난 성능을 보이며, 멀티모달 오디오 생성에 더 간단하고 확장 가능한 대안을 제시했어요.