연구진은 대규모 데이터셋 훈련 비용 문제를 해결하기 위해 생성 데이터 증류 기법을 제안했어요. 기존 증류 방식은 데이터 분포나 훈련 통계를 맞추는 데 집중했지만, 고수준 의미 정보 보존에는 한계가 있었어요. SAS(Semantic-aware Sampling)는 CLIP을 활용해 의미 기반 사전 지식을 활용해 데이터 증류를 개선했어요.
SAS는 클래스 관련성, 클래스 간 분리성, 집합 내 다양성을 측정하는 세 가지 의미 점수 함수를 설계했어요. 기존 증류 방법으로 생성된 이미지 풀에서 두 단계 샘플링 전략을 통해 의미적으로 차별화된 샘플을 걸러내고, 다양성을 고려해 중복을 줄이면서 의미적 범위를 보존했어요.
다양한 데이터셋, 이미지 풀, 다운스트림 모델에 대한 실험 결과, 의미 정보를 통합하면 데이터 증류 성능을 향상시킬 수 있음을 확인했어요.