연구진은 이미지 미적 평가(IAA)의 두 가지 주요 방식인 쌍대 비교 선호도와 점수 평점을 통합한 PPaint 벤치마크를 공개했어요. 15명의 전문가가 중국 회화 150점을 5가지 미적 차원에서 평가해 총 45,900건의 데이터를 수집했어요.
선호도는 순위 일관성이 높고, 평점은 절대 점수 척도를 기준으로 한다는 점이 확인되었으며, 두 방식을 융합한 결과 전문가의 진실된 평가를 얻을 수 있었어요.
자기 증류 방식으로 훈련된 Qwen3-VL-8B 모델은 기존 모델보다 성능이 향상되었으며, APDDv2에서도 검증되어 뛰어난 성능을 입증했어요.