Physics-IQ Verified는 비디오 생성 모델의 물리적 현실 이해도를 평가하는 벤치마크입니다. 기존 Physics-IQ 벤치마크의 문제점을 개선하여 프롬프트와 ground truth 품질을 높이고, 샘플 단위 점수 시스템을 도입했습니다. Physics-IQ Verified는 기존 벤치마크의 57.6% 샘플을 개선하고 34.8% 프롬프트를 개선했습니다.
6개의 이미지-비디오 생성 모델 비교 테스트에서 순위 변화가 관찰되었으며, Kendall's τ 값은 0.46으로 의미 있는 변화를 보였습니다.
Physics-IQ Verified 벤치마크 코드는 GitHub에서 확인할 수 있습니다.