연구진은 안전성 예산이 에피소드마다 달라지거나 단일 에피소드 내에서 변경될 때 정책이 배포 시점에 적응할 수 있도록 하는 오프라인 안전 강화 학습 방법을 연구했어요.
Safe Decoupled Guidance Diffusion (SDGD)라는 새로운 방법론을 제시하여 비용 제한에 따라 샘플링을 조정하고, 보상-경사 지침을 활용하여 더 높은 수익을 얻는 경로를 개선했어요.
DSRL 벤치마크 평가 결과 SDGD는 기준 모델보다 안전성 준수율이 높았으며, 안전한 방법 중 21개 작업에서 가장 높은 보상을 달성했어요.