연구진이 MuJoCo XLA 기반의 새로운 안전 강화 학습 벤치마크 CRAX를 제안했어요. CRAX는 벡터화 연산과 하드웨어 가속을 통해 기존 벤치마크보다 최대 100배 빠른 속도를 제공해요.
CRAX는 6개의 환경 스위트와 3가지 에이전트별 작업, 3개의 난이도 레벨로 구성돼 있으며, 6가지 안전 강화 학습 방법의 성능을 평가했어요.
연구 결과, 난이도 레벨별 커리큘럼 학습과 안전 전송이 어려운 환경에서 직접 훈련하는 것보다 성능을 향상시키는 것으로 나타났어요.