연구진은 합성 데이터 생성(SDG)에서 불균형 영향이라는 공정성 개념을 재검토했어요. 기존 연구와 달리, 이 연구는 실제 데이터 분포와 동일한 분포를 학습하는 것을 목표로 해요. SDG 방법의 표현력, 그룹 비율에 따른 샘플링 오류, 차등 개인 정보 보호 메커니즘으로 인한 추정 오류 등을 분석했어요.
인공 데이터와 실제 데이터 모두에서 불균형 영향 사례를 보여주며, 확률적 그래프 모델에 의존하는 SDG 방법의 문제점을 지적했어요. 그룹별 SDG 모델 학습 전략을 도입하여 전반적인 유용성과 공정성을 개선하는 방법을 제시했어요.
연구 결과는 합성 데이터 생성 과정에서 발생할 수 있는 불균형 문제를 이해하고 개선하는 데 기여할 수 있으며, 공정한 AI 시스템 구축에 중요한 시사점을 제공해요.