Pulse · AI 뉴스

MM-JudgeBias: MLLM 평가 편향성 평가를 위한 벤치마크

arXiv cs.CL · 2026-04-20

멀티모달 대규모 언어 모델(MLLM)이 자동 평가 도구로 활용되면서 신뢰성과 편향성에 대한 우려가 제기되고 있어요.

연구진은 MLLM 평가 시스템의 구성 편향을 정의하고, 이를 평가하기 위한 벤치마크 MM-JudgeBias를 새롭게 선보였어요.

26개의 최첨단 MLLM을 실험한 결과, 모델들이 시각 또는 텍스트 정보를 제대로 통합하지 못하고, 비대칭적인 평가 경향을 보이는 것이 확인되었어요.

##MLLM##벤치마크##평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기