연구진이 복잡한 프롬프트 충실도 평가 벤치마크 'Arena-T2I Hard'를 공개했어요. 이 벤치마크는 실제 T2I 로그에서 추출한 310개의 프롬프트를 사용하며, 각 프롬프트는 6가지 범주에 걸쳐 30개의 이진 질문으로 구성돼요.
현재 최고 성능 모델은 0.855의 정확도를 기록했지만, 11개 시스템 간에 최대 33%p의 성능 차이가 발생했어요.
연구진은 프롬프트를 의존성 그래프로 분해하고, 충실도를 각 제약 조건별 신호로 활용하는 '의존성 기반 체크리스트 보상' 방법을 제안했어요. 이 방법은 SD3.5-Medium과 FLUX.1-dev에서 기존 방식보다 더 나은 충실도-미학 균형을 달성했어요.