연구진은 AI 생성 비디오(AIGV) 탐지 시 시각-텍스트 교차 모달 공간의 시간적 안정성 불일치를 활용하는 새로운 프레임워크 'CMTA'를 제안했습니다.
CMTA는 BLIP을 활용해 프레임별 이미지 캡션을 생성하고, CLIP을 통해 시각-텍스트 표현을 추출하여 교차 모달 시간 아티팩트를 포착합니다.
GenVideo, EvalCrafter, VideoPhy, VidProM 등 4개의 대규모 데이터셋에서 실험 결과, CMTA는 새로운 최고 성능을 달성하며 다양한 생성기 간의 일반화 능력을 입증했습니다.