연구진은 텍스트-이미지 모델이 안전하지 않은 콘텐츠를 생성하는 원인을 파악하기 위해 훈련 데이터의 안전하지 않은 이미지 비율을 조절하며 실험을 진행했어요.
훈련 데이터 내 안전하지 않은 이미지 비율이 5%에서 25.5%로 증가하며 모델의 안전하지 않은 이미지 생성 비율이 함께 증가하는 것으로 나타났어요.
연구 결과, 데이터 선별과 SafeCLIP 같은 텍스트 인코더 안전 개선이 상호 보완적으로 효과적이며, 안전하지 않은 콘텐츠 생성 비율을 줄이는 데 기여한다는 것을 확인했어요.