Pulse · AI 뉴스

안전한 오프라인 강화 학습을 위한 강력한 확률적 차폐

arXiv cs.AI · 2026-05-11

오프라인 강화 학습에서 정책의 성능과 안전성을 보장하는 것이 주요 과제입니다.

안전한 정책 개선(SPI)은 새로운 정책이 특정 기준 정책보다 우수한 성능을 낼 확률을 보장하며, 차폐는 안전 모델을 기반으로 행동 공간을 제한하여 안전성을 보장합니다.

연구진은 차폐를 오프라인 강화 학습에 통합하여 데이터셋과 안전/위험 상태에 대한 지식만으로 안전한 정책 개선을 보장합니다.

##강화학습##안전성##오프라인학습##차폐

매일 핵심 AI 소식을 한국어로, 빠르게