오디오·비디오 인텔리전스(AVI)는 인공지능의 핵심 분야로, 시각과 청각 정보를 결합하여 현실 세계를 인식하고 상호작용하는 기계를 만드는 데 중요합니다.
Meta MovieGen, Google Veo-3 등 최근 연구는 대규모 오디오·비디오 데이터를 활용하는 통합 아키텍처에 대한 관심 증가를 보여줍니다.
이번 연구는 AVI 연구 분야를 체계적으로 정리하고, 다양한 작업, 방법론, 데이터셋, 벤치마크를 비교 분석하여 향후 연구의 기초 자료를 제공합니다.