Pulse · AI 뉴스

ReasonEdit: 강화 학습 기반 이미지 편집 평가의 해석 가능성 향상

ReasonEdit · 2026-05-08

연구진은 이미지 편집 모델의 평가 해석 가능성을 높이기 위해 새로운 데이터셋 ReasonEdit-22K와 평가 모델 RE-Reward, ReasonEdit를 개발했습니다.

ReasonEdit-22K는 22,000개의 편집 이미지와 113,000개의 Chain-of-Thought 샘플, 130만 개의 인간 판단으로 구성되어 논리성, 정확성, 유용성을 평가합니다.

RE-Reward는 MLLM 기반 보상 모델로 인간과 일치하는 피드백을 제공하며, ReasonEdit은 GRPO 알고리즘을 사용하여 해석 가능한 평가 모델을 학습합니다.

##이미지편집##강화학습##해석가능성

매일 핵심 AI 소식을 한국어로, 빠르게