Pulse · AI 뉴스

OVO-S-Bench: 멀티모달 LLM의 스트리밍 공간 지능 벤치마크

Google · 2026-06-02

OVO-S-Bench는 로봇, AR, 자율 주행 등에서 스트리밍 데이터를 활용한 공간 지능을 평가하는 새로운 벤치마크입니다.

총 1,680개의 질문으로 구성되었으며, 348개의 영상 데이터를 활용하여 즉각적인 인식부터 공간 시뮬레이션, 지도 작성까지 4단계 난이도를 측정합니다.

Gemini-3.1-Pro는 86.6점인 인간 전문가 대비 59.2점으로 뒤쳐졌으며, 특히 공간 지도 작성에 어려움을 겪는 것으로 나타났습니다.

##벤치마크##멀티모달##LLM##공간지능

매일 핵심 AI 소식을 한국어로, 빠르게