Pulse · AI 뉴스

안전성 제약 조건에 맞춰 비용 제한이 변동하는 분리형 확산 계획기

arXiv cs.AI · 2026-05-05

연구진은 안전성 예산이 에피소드마다 달라지거나 단일 에피소드 내에서 변경될 때 정책이 배포 시점에 적응할 수 있도록 하는 오프라인 안전 강화 학습 방법을 연구했어요.

Safe Decoupled Guidance Diffusion (SDGD)라는 새로운 방법론을 제시하여 비용 제한에 따라 샘플링을 조정하고, 보상-경사 지침을 활용하여 더 높은 수익을 얻는 경로를 개선했어요.

DSRL 벤치마크 평가 결과 SDGD는 기준 모델보다 안전성 준수율이 높았으며, 안전한 방법 중 21개 작업에서 가장 높은 보상을 달성했어요.

##강화학습##안전성##확산모델##SDGD

매일 핵심 AI 소식을 한국어로, 빠르게