연구진은 환경에서 스칼라 보상이나 평가 레이블을 제공하지 않는 온라인 보상-처벌 학습을 연구했어요.
에이전트는 각 단계마다 고정 채널 시각적 패킷을 받고, 통증, 에너지, 접촉, 손상, 인지 오류와 같은 양은 결과에서 추론해야 하는 지각 차원으로 처리돼요.
OHIRL은 다음 패킷 예측을 학습하는 M_psi, 잔여 동역학을 모델링하는 D_omega, 고정 내부 사후 전환 경로 평가기 C_eta, 정책 업데이트 및 행동 점수를 위해 결과 값 증거를 사용하는 B_xi의 네 가지 역할을 분리해요.
B_xi는 회복-긍정적이고 지속성/성장-부정적 잔여-규제 지향을 사용하며, 계수-기원 감사는 동일 단위, 원시 동일, 무작위 단조 변형이 92% 이상의 방출된 최고 동작 순위를 유지하는 반면, 부호 반전은 0%를 유지해요.