데이터 증류(DD)는 대규모 데이터 세트의 정보를 소량의 합성 샘플로 압축하여 효율적인 학습을 위한 소규모 학습 세트를 합성하는 데 목표를 둔 데이터 중심 머신 러닝의 주요 접근 방식입니다.
연구진은 표준화된 데이터 세트와 평가 프로토콜을 사용하여 대규모 실험을 통해 DD 방법의 내재적 효과성을 평가했습니다.
결과적으로, 최첨단 DD 접근 방식은 대규모 데이터 세트에서 코어 세트와 비슷하거나 더 나쁘며 구성 비용이 훨씬 더 높다는 사실이 밝혀졌습니다.
코어 세트는 원본 데이터 분포에 대한 더 나은 범위를 달성하며, 데이터 중심 학습에 있어 경쟁력 있고 계산 효율적인 대안으로 남아 있습니다.