Pulse · AI 뉴스

Arena-T2I Hard: 텍스트-이미지 모델의 충실도 평가 및 개선

SD3.5 · 2026-06-30

연구진이 복잡한 프롬프트 충실도 평가 벤치마크 'Arena-T2I Hard'를 공개했어요. 이 벤치마크는 실제 T2I 로그에서 추출한 310개의 프롬프트를 사용하며, 각 프롬프트는 6가지 범주에 걸쳐 30개의 이진 질문으로 구성돼요.

현재 최고 성능 모델은 0.855의 정확도를 기록했지만, 11개 시스템 간에 최대 33%p의 성능 차이가 발생했어요.

연구진은 프롬프트를 의존성 그래프로 분해하고, 충실도를 각 제약 조건별 신호로 활용하는 '의존성 기반 체크리스트 보상' 방법을 제안했어요. 이 방법은 SD3.5-Medium과 FLUX.1-dev에서 기존 방식보다 더 나은 충실도-미학 균형을 달성했어요.

##텍스트이미지##벤치마크##충실도##SD3.5##FLUX
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기