Pulse · AI 뉴스

OVO-S-Bench: 멀티모달 LLM의 스트리밍 공간 지능 벤치마크

Gemini · 2026-06-03

OVO-S-Bench는 로봇, AR, 자율 주행 등에서 스트리밍 데이터를 활용한 공간 지능을 평가하는 새로운 벤치마크입니다.

총 1,680개의 질문으로 구성되었으며, 348개의 동영상 소스를 사용하고, 12명의 평가자가 804시간의 품질 검수를 진행했습니다.

Gemini-3.1-Pro는 인간 전문가보다 27점 뒤쳐졌으며, 특히 공간 매핑에서 어려움을 겪는 것으로 나타났습니다.

##멀티모달##LLM##벤치마크##공간지능##스트리밍

매일 핵심 AI 소식을 한국어로, 빠르게