연구진은 MLLM의 전문적인 의사 결정 능력 평가를 위한 새로운 벤치마크 'RefereeBench'를 발표했어요. RefereeBench는 11개 스포츠의 925개 영상과 6,475개의 질의응답 쌍으로 구성되어 심판 업무 능력을 평가합니다.
최신 MLLM 모델들을 평가한 결과, Doubao-Seed-1.8과 Gemini-3-Pro는 약 60%, Qwen3-VL은 47%의 정확도를 기록하며 아직 심판으로 사용하기에는 부족한 성능을 보였어요.
분석 결과, 모델들은 사건과 관련 인물을 식별하는 데는 어느 정도 성공하지만, 규칙 적용과 시간적 맥락 파악에 어려움을 겪으며 불필요하게 파울을 선언하는 경향이 있음을 확인했어요.