연구진은 기존 벤치마크의 한계를 극복하기 위해 이미지 편집 및 보상 모델링을 위한 통합 평가 도구인 Edit-Compass와 EditReward-Compass를 새롭게 선보였습니다.
Edit-Compass는 2,388개의 정교하게 주석 처리된 인스턴스를 포함하며, 세계 지식 추론, 시각적 추론, 멀티 이미지 편집 등 6가지 난이도별 작업 범주를 다룹니다.
EditReward-Compass는 2,251개의 선호도 쌍으로 구성되어 있으며, 현실적인 보상 모델링 시나리오를 시뮬레이션하여 RL 최적화에 활용됩니다.