연구진은 순환 신경망(RNN) 기반 강화 학습 정책 검증을 위한 새로운 프레임워크 'RNN-ProVe'를 제안했어요. RNN-ProVe는 정책 기반 샘플링을 통해 정책 하에서 실현 가능한 은닉 상태 집합을 추정하고, 통계적 오류 경계를 도출하여 행동 위반에 대한 신뢰성 있는 추정치를 제공해요.
기존 RNN 검증 도구는 제한적인 모델링 가정이나 은닉 상태 공간의 대략적인 근사치를 사용해 과도하게 보수적이거나 결론이 없는 결과를 초래하는 경우가 많았어요. RNN-ProVe는 부분 관측 환경의 단일 에이전트 및 협력 다중 에이전트 작업에서 기존 도구보다 더 정량적이고 실현 가능성을 고려한 확률적 보장을 제공해요.
실험 결과, RNN-ProVe는 순환 및 다중 에이전트 환경에서도 확장 가능하며, 기존 도구보다 더 정확한 검증 결과를 제공하는 것으로 나타났어요.