OVO-S-Bench는 로봇, AR, 자율 주행 등에서 스트리밍 데이터를 활용한 공간 지능을 평가하는 새로운 벤치마크입니다. 총 1,680개의 질문으로 구성되었으며, 348개의 동영상 소스를 사용하고, 12명의 평가자가 804시간의 품질 검수를 진행했습니다. Gemini-3.1-Pro는 인간 전문가보다 27점 뒤쳐졌으며, 특히 공간 매핑에서 어려움을 겪는 것으로 나타났습니다.