OVO-S-Bench는 로봇, AR, 자율 주행 등에서 스트리밍 데이터를 활용한 공간 지능을 평가하는 새로운 벤치마크입니다. 총 1,680개의 질문으로 구성되었으며, 348개의 영상 데이터를 활용하여 즉각적인 인식부터 공간 시뮬레이션, 지도 작성까지 4단계 난이도를 측정합니다. Gemini-3.1-Pro는 86.6점인 인간 전문가 대비 59.2점으로 뒤쳐졌으며, 특히 공간 지도 작성에 어려움을 겪는 것으로 나타났습니다.