현대적인 오프폴리시 강화 학습 알고리즘은 균등 리플레이 샘플링에 의존하는 경우가 많으며, 비균등 리플레이가 이 강력한 기준을 얼마나 개선하는지 불분명합니다. 연구 결과, 비균등 리플레이의 효과는 리플레이 볼륨, 재현된 전환 수, 예상되는 최근성, 리플레이 샘플링 분포의 엔트로피라는 세 가지 요인에 따라 결정됩니다. 저희는 리플레이 볼륨이 낮을 때, 그리고 높은 엔트로피 샘플링이 중요할 때 비균등 리플레이가 가장 유익하다는 사실을 발견했습니다.