PhyGround는 생성형 월드 모델의 물리적 추론 능력을 평가하기 위한 새로운 벤치마크입니다. 이 벤치마크는 13가지 물리 법칙에 대한 250개의 큐레이션된 프롬프트와 예상되는 물리적 결과를 포함합니다.
연구진은 총 459명의 어노테이터를 통해 5,796개의 완전한 어노테이션을 확보했으며, 품질 관리를 거쳐 높은 일관성(Spearman's rho > 0.90)을 확인했습니다.
자동 평가를 지원하기 위해 물리 전문 VLM 모델인 PhyJudge-9B를 공개했으며, 기존 모델 대비 상대적 편향이 현저히 낮습니다.