연구진이 강화 학습(RL)의 안전 탐색을 위한 보호막(shielding) 기술 도입 장벽을 낮추는 파이썬 라이브러리 'tempestpy'를 공개했어요.
tempestpy는 기존의 복잡한 절차를 간소화하여 Gymnasium API와 통합, RL 파이프라인 내에서 보호막을 쉽게 합성하고 배포할 수 있도록 지원해요.
MiniGridSafe라는 새로운 환경 모음집을 제공하여, 확률적 전환 및 추가 에이전트가 포함된 안전 관련 시나리오를 통해 보호막 연구를 용이하게 해요.
연구 결과, 보호막을 적용한 RL은 안전하면서도 효과적인 학습을 가능하게 하며, MiniGridSafe 환경에서 안전 측면을 실험적으로 검증할 수 있음을 보여줬어요.