연구진이 이미지 생성 모델에 대한 교정 지침을 반복적으로 제공하는 완전 자동 벤치마크인 '이미지 재구성 게임'을 소개했어요. Describer 모델과 Generator 모델을 결합하여 7가지 이미지 카테고리에서 실험한 결과, 재구성 품질에 Describer 모델이 큰 영향을 미치는 것으로 나타났어요.
수학 및 기하학적 이미지가 가장 어려운 과제로 확인되었으며, Describer 모델의 토큰 예산은 수렴에 영향을 미쳐 짧은 예산은 더 많은 개선 여지를 제공하지만 긴 예산은 개선할 부분이 줄어들어요.
사람의 검증 결과, 최상의 자동 판단 기준은 인간의 선호도와 약간에서 보통 수준의 일치성을 보이며, 신뢰성 있는 사용을 위해서는 인간의 재보정이 필요해요.