DataEvolver는 텍스트 풍부 이미지 데이터 구축의 한계를 극복하기 위해 자체 진화하는 멀티 에이전트 프레임워크입니다.
DataEvolver는 데이터 구축을 피드백 기반의 구축 정책 진화로 보고, Retriever, Verifier, Critic, Generator 에이전트를 활용합니다.
PixArt-alpha 데이터셋에서 DataEvolver는 기존 방식 대비 OCR-F1 점수를 TextScenesHQ에서 85.3%, LongTextBench에서 35.3% 향상시켰습니다.
연구 결과, 거부된 샘플도 데이터 구축 개선에 중요한 피드백을 제공할 수 있음을 시사합니다.