오프라인 강화 학습에서 정책의 성능과 안전성을 보장하는 것이 주요 과제입니다. 안전한 정책 개선(SPI)은 새로운 정책이 특정 기준 정책보다 우수한 성능을 낼 확률을 보장하며, 차폐는 안전 모델을 기반으로 행동 공간을 제한하여 안전성을 보장합니다. 연구진은 차폐를 오프라인 강화 학습에 통합하여 데이터셋과 안전/위험 상태에 대한 지식만으로 안전한 정책 개선을 보장합니다.