Pulse · AI 뉴스

SafeDiffusion-R1: 안전한 디퓨전 모델 온라인 보상 조향

SafeDiffusion-R1 · 2026-05-19

연구진은 안전하지 않은 콘텐츠 제거를 위한 새로운 온라인 강화 학습 프레임워크 SafeDiffusion-R1을 제안했습니다. 이 방법은 지도 데이터 부족과 모델 성능 저하 문제를 해결하며, 그룹 상대 정책 최적화(GRPO)를 활용합니다.

CLIP 임베딩 공간에서 텍스트 표현을 안전 방향으로 조향하는 ‘보상 조향 메커니즘’을 도입하여 안전/위험 보상 모델을 별도로 튜닝할 필요성을 없캍니다.

SafeDiffusion-R1은 부적절한 콘텐츠를 18.07%까지 줄이고, GenEval에서 합성 생성 품질을 47.83%까지 향상시켰으며, 지도 데이터나 보상 튜닝 없이도 다양한 유해 콘텐츠에 대한 안전성을 확보했습니다.

##디퓨전모델##안전성##강화학습##CLIP##SafeDiffusion

매일 핵심 AI 소식을 한국어로, 빠르게