연구진은 기존 표 데이터 생성 모델이 작은 데이터셋 환경에서 데이터 품질과 개인 정보 보호 사이의 균형을 맞추기 어렵다는 점을 발견했어요.
DiffICL은 사전 학습된 구조적 정보를 활용하여 제한된 데이터만으로 데이터 분포를 추론하고, 개별 샘플을 암기하는 것을 방지하는 인덱스 학습 방식의 표 데이터 생성 모델이에요.
14개의 실제 데이터셋으로 평가한 결과, DiffICL은 데이터 품질과 개인 정보 보호를 모두 향상시켜 효과적인 데이터 증강을 가능하게 했어요.