연구진이 이미지 생성 및 편집 성능은 뛰어나지만 저수준 시각 작업 능력은 부족한 대규모 생성 모델 성능을 평가하는 LL-Bench를 공개했어요.
LL-Bench는 16가지 저수준 작업의 2,469개 손상 이미지와 10가지 대규모 생성 모델 및 21가지 기존 복원 모델의 28,919개 복원 이미지를 포함해요.
LL-Score라는 새로운 평가 지표를 제안했는데, 기존 평가 지표보다 인간 선호도와 더 잘 일치하며 저수준 시각 작업에서 생성 모델 훈련에 유용해요.
LL-Score는 복원 품질과 환각 존재 여부를 모두 포착하여 기존 이미지 품질 평가 지표를 능가하는 성능을 보여줘요.