연구진은 안전하지 않은 콘텐츠 제거를 위한 새로운 온라인 강화 학습 프레임워크 SafeDiffusion-R1을 제안했어요.
이 프레임워크는 지도 데이터 부족과 모델 성능 저하 문제를 해결하며, GRPO(Group Relative Policy Optimization)를 활용해 안전 및 부정적인 텍스트 프롬프트 모두 학습해요.
CLIP 임베딩 공간에서 텍스트 표현을 안전 방향으로 조향하는 보상 조향 메커니즘을 도입하여, 안전/비안전 보상 모델을 별도로 튜닝할 필요가 없어요.
실험 결과, 부적절한 콘텐츠를 18.07%까지 줄이고, GenEval에서 합성 생성 품질을 47.83%까지 향상시켰으며, 7가지 유해 범주에서 안전성이 뛰어난 성능을 보여줬어요.