연구진은 기초 모델의 물리적 추론 능력을 평가하기 위해 실제 장면의 멀티뷰 이미지를 기반으로 한 4차원 물리 주석 데이터셋 NewtPhys를 공개했어요.
NewtPhys는 힘, 위치, 의미, 기하학 등 세분화된 주석을 제공하여 단순한 합성 환경과 현실적인 시각적 복잡성 사이의 격차를 해소하고, 56개의 VLMs와 10개의 VFMs를 평가했어요.
평가 결과, 기초 모델은 저수준 물리적 추론에 한계가 있으며, NewtPhys는 물리 기반 비전 연구와 차세대 물리 인식 평가 개발을 지원할 수 있어요.