Ernie Research가 6.3B 파라미터의 오디오·비디오 생성 모델 'Nava'를 공개했어요. Nava는 텍스트 프롬프트를 기반으로 동기화된 오디오와 비디오를 생성하며, 멀티 스피커 음성과 이미지 기반 연속 생성 기능도 지원해요.
기존 모델 대비 적은 파라미터로 Verse-Bench에서 동기화 및 화질, 음성 WER에서 최고 성능을 달성했어요. Nava는 먼저 오디오·비디오 대응 관계를 설정하는 Align-then-Fuse MMDiT 구조를 사용해요.
Nava는 GitHub에서 공개되었으며, Hugging Face에서 모델을 다운로드할 수 있어요.