연구진은 다국어·다중모드 평가 벤치마크 MM-JudgeBench를 새롭게 선보이며, 기존 영어 중심 평가의 한계를 지적했어요. MM-JudgeBench는 25개 언어의 6만 건이 넘는 쌍방향 선호도 데이터를 포함하며, 다양한 환경에서 LVLM 평가 모델의 성능을 분석할 수 있도록 설계됐어요. 22개의 LVLM을 평가한 결과, 모델 크기나 구조가 다국어 성능의 예측 지표가 되지 않으며, 최첨단 모델조차 언어에 따라 일관성 없는 모습을 보였어요.