NAVA는 오디오·비디오 정렬을 위한 새로운 프레임워크로, 기존 방식의 한계를 극복하고 자연스러운 오디오·비디오 합성을 목표로 합니다. 오디오·비디오 간의 대응 관계를 우선적으로 설정하고 외부 컨텍스트를 활용하여 합쳐진 생성 과정을 개선합니다. 특히, 63억 개의 파라미터로 구성된 NAVA는 Verse-Bench 및 Seed-TTS 데이터셋에서 뛰어난 성능을 보였습니다.