멀티모달 대규모 언어 모델(MLLM)이 자동 평가 도구로 활용되면서 신뢰성과 편향성에 대한 우려가 제기되고 있어요. 연구진은 MLLM 평가 시스템의 구성 편향을 정의하고, 이를 평가하기 위한 벤치마크 MM-JudgeBias를 새롭게 선보였어요. 26개의 최첨단 MLLM을 실험한 결과, 모델들이 시각 또는 텍스트 정보를 제대로 통합하지 못하고, 비대칭적인 평가 경향을 보이는 것이 확인되었어요.