연구진이 텍스트-비디오 생성 모델의 물리 법칙 준수 여부를 평가하는 Physics Question Scene Graph (PQSG) 파이프라인을 공개했어요.
PQSG는 VLM을 활용해 객체, 동작, 물리 법칙 준수 여부에 대한 질문 그래프를 생성하고, 이를 통해 비디오의 물리적 타당성을 평가해요.
FinePhyEval 데이터셋을 통해 PQSG의 정확성을 검증한 결과, 기존 방식보다 인간 평가와 높은 상관관계를 보였고, Sora 2, Veo 3, Wan 2.1 모델 순위를 매겼어요.