연구진이 강화 학습의 안전한 탐색 문제를 해결하기 위해 샘플링 기반 안전 강화 학습(SBSRL) 알고리즘을 제안했어요. SBSRL은 여러 동역학 샘플에 걸쳐 제약 조건을 동시에 적용하여 학습 과정 전반에 걸쳐 안전을 유지하는 모델 기반 강화 학습 알고리즘이에요.
불확실한 동역학에 대한 최악의 경우 최적화 문제를 근사하여 연속 도메인에서 실질적인 안전 보장을 가능하게 하며, 명시적인 탐색 보너스가 필요 없는 불확실성 제약 기반 탐색 전략을 도입했어요.
시뮬레이션과 실제 로봇 하드웨어에서 안전하고 효율적인 탐색을 달성했으며, 고차원 연속 제어 문제에 적용 가능한 실용적인 딥 앙상블 구현으로 확장 가능해요.