연구진은 데이터베이스 벤더가 AI 기반 필터 프레디케이트를 출시하면서 새로운 데이터 관리 과제가 발생했다고 밝혔습니다.
Parquet의 기본 min-max 메타데이터만으로도 데이터 건너뛰기(pruning)가 가능하며, ReLU 아키텍처에서 0.1% 미만의 선택성을 가진 필터에 대해 평균 27.4%의 건너뛰기 효율을 보였습니다.
공간 조인 연구에서 영감을 받아 향상된 메타데이터 구조(2D 볼록 껍질)를 제안하여 건너뛰기 효율을 38.31%까지 높이고 DuckDB에서 PyTorch보다 1.07배 빠른 속도를 기록했습니다.