연구진이 데이터 통합 파이프라인 전체를 평가하는 MaDI-Bench를 공개했어요. MaDI-Bench는 스키마 매칭, 값 정규화, 개체 매칭, 데이터 융합 등 모든 단계를 포함하는 관계형 테이블 통합을 위한 첫 번째 벤치마크예요.
벤치마크는 여러 애플리케이션 도메인을 포괄하는 데이터 통합 작업을 제공하며, 데이터 통합 시스템 발전 속도를 늦추기 위한 작업 변형 생성 방법도 포함돼요.
연구진은 기존 파이프라인, 최고 성능 파이프라인, LLM 기반 파이프라인을 활용해 벤치마크를 검증했으며, 모든 벤치마크 자료는 공개 다운로드 가능해요.