연구진은 비디오 확산 모델이 학습 데이터의 운동 패턴을 단순히 모방하는지, 아니면 물리적 구조를 내재적으로 이해하는지 조사했어요.
실제 비디오의 물리적 타당성을 알 수 있는 잠재적 경로를 추적하여, 물리적 타당성은 확산 트랜스포머 상태에서 선형적으로 해독 가능하며 정확도는 81.27%에 달했어요.
놀랍게도 이 신호는 VAE 잠재 입력에서는 나타나지 않지만, 모델이 예측 목표로 훈련되지 않았음에도 불구하고 디노이징 트랜스포머 내부에서 나타났으며, 이는 생성적 디노이징의 부산물로 물리적으로 의미 있는 표현이 나타날 수 있음을 시사해요.