최신 시각적 생성 모델은 사실적인 이미지 생성, 텍스트 따르기, 인터랙티브 편집 등에서 큰 발전을 이루었지만, 공간 추론, 지속적인 상태 유지, 장기 일관성, 인과 관계 이해에는 여전히 어려움을 겪고 있어요.
연구진은 단순한 외관 합성에서 벗어나 구조, 역학, 도메인 지식, 인과 관계에 기반한 지능적인 시각적 생성으로 나아가야 한다고 주장하며, 5단계 분류 체계를 제안했어요.
현재 평가 방식은 시각적 품질을 과대평가하고 구조적, 시간적, 인과적 실패를 간과하는 경향이 있어, 새로운 평가 방법론과 함께 연구 방향을 제시하고 있어요.