연구진은 비디오 확산 모델(VDM)이 세계 모델로 발전하면서 인과 관계를 진정으로 이해하는지, 아니면 단순한 시간적 패턴에 과적합하는지 질문을 제기했어요.
YoCausal은 인지 과학의 기대 위반(VoE) 패러다임에서 영감을 받아 실제 비디오를 시간 역전시켜 자연스러운 반사실 샘플을 생성하는 2단계 벤치마크를 소개했어요.
13개의 최첨단 VDM 평가 결과, 시간의 화살을 인식하는 것만으로는 인과 관계를 이해하는 것이 아니며 인간 수준의 인과적 인지 능력과 상당한 격차가 존재했어요.