연구진은 이미지 편집 모델의 평가 해석 가능성을 높이기 위해 새로운 데이터셋 ReasonEdit-22K와 평가 모델 RE-Reward, ReasonEdit를 개발했습니다.
ReasonEdit-22K는 22,000개의 편집 이미지와 113,000개의 Chain-of-Thought 샘플, 130만 개의 인간 판단으로 구성되어 논리성, 정확성, 유용성을 평가합니다.
RE-Reward는 MLLM 기반 보상 모델로 인간과 일치하는 피드백을 제공하며, ReasonEdit은 GRPO 알고리즘을 사용하여 해석 가능한 평가 모델을 학습합니다.