연구진은 머신러닝 시스템의 성능 향상을 위해 데이터 엔지니어링을 자동화하는 DataMaster 프레임워크를 제안했습니다.
DataMaster는 외부 데이터 검색, 선택 및 조합, 데이터 정제 및 변환을 통해 학습 알고리즘을 개선하며, DataTree, Data Pool, Global Memory의 세 가지 핵심 구성 요소를 통합합니다.
MLE-Bench Lite 벤치마크에서 기존 성능보다 32.27% 향상되었고, PostTrainBench에서는 instruct 모델을 능가하는 결과를 보여주었습니다.