DataEvolver는 텍스트 풍부 이미지 생성 데이터 구축을 위한 자체 진화형 멀티 에이전트 프레임워크입니다. 기존 데이터 파이프라인의 한계를 극복하기 위해 설계됐습니다. PixArt-alpha 데이터셋에서 DataEvolver는 기존 방식 대비 OCR-F1 점수를 TextScenesHQ에서 85.3%, LongTextBench에서 35.3% 향상시켰습니다. Show-o2에서도 성능 개선이 확인돼 다양한 벤치마크에서 효과를 입증했습니다.
DataEvolver는 Retriever, Verifier, Critic, Generator 에이전트로 구성되어 있으며, 각 에이전트는 데이터 수집, 품질 평가, 피드백 요약, 데이터 합성 등의 역할을 수행합니다. 거부된 샘플에서 얻은 피드백은 다음 구축 라운드를 안내하는 데 사용됩니다.
기존 방식은 거부된 샘플을 버리는 반면, DataEvolver는 이 샘플들이 가진 잠재적 가치를 활용하여 데이터 구축 과정을 개선합니다. 이를 통해 모델은 시각적으로 현실적이고, 가독성이 좋으며, 의미적으로 일관성 있는 텍스트를 생성할 수 있습니다.