Almieyar-Oryx-BloomBench는 비전-언어 모델(VLM)의 진정한 추론 능력을 진단하고 인간과 유사한 멀티모달 지능으로 나아가는 데 필요한 벤치마크입니다.
Bloom의 분류학에 근거한 이 벤치마크는 기억, 이해, 적용, 분석, 평가, 창조의 6가지 인지 수준을 평가하며, 영어와 아랍어를 모두 지원합니다.
연구 결과, VLM은 의미 이해에서는 강점을 보이지만 사실 기억과 창의적 합성에서는 어려움을 겪으며, 아랍어와 영어 간의 성능 격차가 크다는 점이 확인됐습니다.