연구진이 MLLM의 시각적 이해 능력을 평가하기 위해 WorldBench를 공개했어요. WorldBench는 다양한 시각적 개념을 포괄하는 이미지와 도전적인 질문으로 구성돼요. 기존 벤치마크보다 시각적 다양성이 높으며, 현재 최고 성능 모델도 64%의 정확도에 그치는 것으로 나타났어요.
WorldBench는 기존 벤치마크의 한계를 극복하기 위해 개발되었으며, 다양한 도메인의 시각적 개념을 체계적으로 분류하고 이에 맞는 이미지를 수집했어요. 연구진은 수차례 시행착오를 거쳐 최첨단 MLLM조차 실패하는 질문들을 설계했어요.
15개의 MLLM을 평가한 결과, 시각적 이해 능력의 약점을 드러냈으며, 일부 모델은 무작위 추측 수준의 성능을 보였어요. 연구진은 WorldBench를 통해 멀티모달 벤치마크에서 시각적 다양성의 중요성을 강조했어요.