연구진이 전략적 비디오 지능(SVI) 평가를 위한 새로운 벤치마크 SVI-Bench를 공개했어요. SVI-Bench는 팀 스포츠를 활용해 실제 다중 에이전트 상호작용 복잡성과 검증 가능성을 결합했어요.
SVI-Bench는 농구, 축구, 하키 경기 영상 3만5천 시간을 포함하며, 15만 건의 액션과 1만5천 시간의 전문가 해설, 2만3천 건의 경기 보고서, 10만 건의 통계 기록으로 구성돼요.
연구 결과, 모델은 세부 액션 질문 응답(73%)에서는 괜찮은 성능을 보이지만, 인지 수준이 높아질수록 급격히 성능이 저하돼요.
특히 자율적으로 증거를 수집하고 통합하는 에이전트 작업은 가장 어렵고, 최고 성능 모델도 180만 클립의 데이터에서 5%의 정확도에 그쳤어요.