연구진은 AI 생성 영상의 결함(시간적 불일치, 구조 왜곡, 의미적 비일관성 등) 감지 및 분석을 위한 벤치마크 'Artifact-Bench'를 공개했어요. 현실과 AI 생성 영상 구별, 현실감 비교, 세부 결함 식별 3가지 과제를 포함합니다.
19개 MLLM을 평가한 결과, 결함 인지 및 추론 능력에 상당한 한계가 있는 것으로 나타났으며, 일부 모델은 무작위 수준 이하의 성능을 보였어요.
MLLM의 판단과 인간의 현실감 선호도 간에 큰 차이가 있어, AI 생성 영상의 현실감 평가에 대한 MLLM의 신뢰성이 낮다는 점을 확인했어요.