연구진이 안전성과 확장성을 모두 갖춘 강화 학습 프레임워크 PS2-RL을 발표했어요. 기존 방법의 한계를 극복하기 위해 설계됐으며, 안전성을 보장하면서도 성능을 유지하는 것을 목표로 합니다.
PS2-RL은 두 단계 아키텍처를 사용하며, 명시적인 invariant set 계산 대신 학습된 backup policy를 활용해 시스템 역학을 forward-integrate하여 implicit control-invariant set을 온라인으로 생성합니다.
연구진은 PS2-RL이 state 차원이 10인 로봇 제어 작업에서 기존 방법보다 뛰어난 성능을 보이며, 안전성을 보장하는 동시에 확장 가능함을 입증했어요.
PS2-RL은 기존 RL 알고리즘에 제약 없이 적용할 수 있으며, 안전성을 엄격하게 준수하는 projection layer를 통해 안전 보장을 실현합니다.