Pulse · AI 뉴스

물리적 신호 기반 비디오 추론의 토대 마련

arXiv cs.CV · 2026-04-24

새로운 물리적 비디오 이해 벤치마크가 발표되었어요. 이 벤치마크는 V-STaR의 평가 구조를 확장하여 4가지 비디오 소스, 6가지 물리 영역, 3가지 프롬프트 패밀리, 4가지 입력 조건을 포함하고 있어요.

벤치마크는 SSV2, YouCook2, HoloAssist, Roundabout-TAU에서 추출한 1,560개의 기본 비디오 클립으로 구성되어 있으며, 각 클립은 공유된 토대 이벤트 기록으로 변환되고 세 가지 쿼리 패밀리가 파생돼요.

연구 결과, 물리적 영역이 전반적으로 가장 강력하며, 프롬프트 패밀리별 강건성은 선택적이고, 공간적 토대는 가장 취약한 것으로 나타났어요.

##비디오이해##벤치마크##물리##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기