연구진이 표 형식 데이터 모델링의 기능 엔지니어링 격차를 해소하기 위해 TabPrep이라는 경량 전처리 파이프라인을 공개했어요. TabPrep은 특정 데이터 패턴을 타겟으로 설계된 기능 생성기로 구성되어 있으며, 모델 중심 혁신만으로는 얻기 힘든 성능 향상을 제공해요. TabArena 벤치마크에서 TabPrep을 통합하면 트리 기반, 신경망, 선형, 기초 모델의 성능을 꾸준히 향상시켜요.
기존 자동 기능 엔지니어링 방식보다 성능, 효율성, 적용 범위에서 우수한 TabPrep은 대규모 벤치마크에 통합될 수 있도록 설계되었으며, GitHub에서 공개되어 연구자들이 벤치마크 설정에 통합할 수 있도록 지원해요.