연구진은 다중 모드 LLM(MLLM)이 이미지 품질 및 안전성 평가 등 자동 심판으로 활용되는 현상에 주목했어요. MLLM 심판의 적대적 강건성이 미흡하여 공정성과 신뢰성을 저해할 수 있다는 문제점을 지적했어요. RobustMLLMJudge 프레임워크를 통해 다양한 공격에 대한 MLLM 심판의 취약점을 분석하고, 새로운 공격 방법 MGSIA를 제안했어요.
RobustMLLMJudge를 활용한 실험 결과, 다양한 MLLM 심판이 점수 조작 공격에 취약하며, 공격 방법은 평가 프로토콜 제약으로 인해 어려움을 겪는다는 사실을 밝혀냈어요. MGSIA는 긍정적 의미 유도와 고점수 중심 정렬을 결합하여 이러한 제약을 우회하고 더욱 효과적인 공격을 가능하게 해요.
MGSIA는 다양한 평가 시나리오에서 고급 MLLM 심판을 속이는 데 효과적이며, 일반화 가능성을 입증했어요. 연구진은 GitHub에서 코드와 데이터를 공개할 예정이에요.
연구 결과는 MLLM 심판의 강건성 확보 필요성을 강조하며, 향후 연구 방향을 제시해요.