연구진은 다중 모드 LLM 평가 모델이 시각적 증거와 텍스트 힌트가 충돌할 때, 지각적으로 정확한 답변보다 그럴듯한 이야기를 더 선호하는 '지각적 판단 편향' 현상을 발견했어요.
새로운 '지각적으로 교란된 판단 데이터셋'을 구축하여 최소한의 편집으로 시각적 오류를 분리하고 검증 가능한 감독을 가능하게 했으며, 이를 바탕으로 GRPO 기반 보상과 배치 순위 목표를 결합한 훈련 프레임워크를 개발했어요.
다양한 벤치마크에서 실험 결과, 제안하는 방법은 지각적 정확성, 순위 일관성, 인간 평가와의 일치도를 크게 향상시키는 것으로 나타났어요.