연구진은 데이터 선택 과정에서 데이터 볼륨을 고정하는 기존 방식의 한계를 지적하며, 모델 훈련 시 데이터 볼륨을 동적으로 조절하는 새로운 프레임워크 PODS를 제안했습니다.
PODS는 데이터 선택 비율을 조절하여 모델의 일반화 성능을 높이는 동시에 훈련 안정성을 유지하며, 기존의 정적 및 동적 데이터 선택 방법과 호환됩니다.
ImageNet-1k 데이터셋 훈련 비용을 50% 절감하고 LLM instruction tuning 속도를 2배 이상 향상시키는 등 다양한 실험에서 효율성과 성능을 개선하는 결과를 보였습니다.