DynT2I-Eval은 텍스트-이미지 모델의 평가를 위한 자동화된 동적 평가 프레임워크입니다. 기존 벤치마크의 한계를 극복하기 위해 프롬프트를 제어 가능한 시각적 의미 공간으로 분해하여 새로운 프롬프트를 지속적으로 생성합니다.
텍스트 정렬, 시각적 품질, 심미성을 평가하며, 다양한 출력을 프롬프트 기반의 쌍대 비교로 통합하여 온라인 리더보드를 유지합니다.
독립적으로 샘플링된 프롬프트 스트림 실험 결과, 프롬프트 세트에 따른 튜닝 영향을 줄이는 강력한 평가 프로토콜임을 확인했습니다.