새로운 물리적 비디오 이해 벤치마크가 발표되었어요. 이 벤치마크는 V-STaR의 평가 구조를 확장하여 4가지 비디오 소스, 6가지 물리 영역, 3가지 프롬프트 패밀리, 4가지 입력 조건을 포함하고 있어요.
벤치마크는 SSV2, YouCook2, HoloAssist, Roundabout-TAU에서 추출한 1,560개의 기본 비디오 클립으로 구성되어 있으며, 각 클립은 공유된 토대 이벤트 기록으로 변환되고 세 가지 쿼리 패밀리가 파생돼요.
연구 결과, 물리적 영역이 전반적으로 가장 강력하며, 프롬프트 패밀리별 강건성은 선택적이고, 공간적 토대는 가장 취약한 것으로 나타났어요.