Pulse · AI 뉴스

SafeDiffusion-R1: 온라인 보상 조향을 통한 안전한 디퓨전 모델 후처리

SafeDiffusion-R1 · 2026-05-18

연구진은 안전하지 않은 콘텐츠 제거를 위한 새로운 온라인 강화 학습 프레임워크 SafeDiffusion-R1을 제안했어요.

이 프레임워크는 지도 데이터 부족과 모델 성능 저하 문제를 해결하며, GRPO(Group Relative Policy Optimization)를 활용해 안전 및 부정적인 텍스트 프롬프트 모두 학습해요.

CLIP 임베딩 공간에서 텍스트 표현을 안전 방향으로 조향하는 보상 조향 메커니즘을 도입하여, 안전/비안전 보상 모델을 별도로 튜닝할 필요가 없어요.

실험 결과, 부적절한 콘텐츠를 18.07%까지 줄이고, GenEval에서 합성 생성 품질을 47.83%까지 향상시켰으며, 7가지 유해 범주에서 안전성이 뛰어난 성능을 보여줬어요.

##디퓨전모델##안전성##강화학습##CLIP

매일 핵심 AI 소식을 한국어로, 빠르게