Pulse · AI 뉴스

번역에 갇히다: LVLM 평가 모델은 언어 간 일반화가 잘 될까?

OpenAI · 2026-04-21

연구진은 다국어·다중모드 평가 벤치마크 MM-JudgeBench를 새롭게 선보이며, 기존 영어 중심 평가의 한계를 지적했어요.

MM-JudgeBench는 25개 언어의 6만 건이 넘는 쌍방향 선호도 데이터를 포함하며, 다양한 환경에서 LVLM 평가 모델의 성능을 분석할 수 있도록 설계됐어요.

22개의 LVLM을 평가한 결과, 모델 크기나 구조가 다국어 성능의 예측 지표가 되지 않으며, 최첨단 모델조차 언어에 따라 일관성 없는 모습을 보였어요.

##모델평가##다국어##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게