연구진은 강화 학습의 불안정성을 해결하기 위해 새로운 배치 적응형 목표 함수를 제시했습니다. 이 방법은 정책 비율 분포를 기반으로 업데이트를 조정하여 신뢰 영역과 오프 정책 문제를 동시에 해결합니다.
기존 방법은 하이퍼파라미터를 사용하여 불안정성을 관리했지만, 새로운 방법은 이러한 하이퍼파라미터를 제거하고 정책 비율 통계치를 활용하여 자동으로 조정합니다.
실험 결과, 새로운 방법은 기존 튜닝된 기준 성능과 일치하거나 능가하며, 새로운 목표 함수 하이퍼파라미터를 도입하지 않고 기존 하이퍼파라미터를 제거했습니다.