AdaGamma는 강화 학습에서 상태에 따라 할인율을 조절하는 새로운 방법입니다. 기존 방식의 불안정성을 해결하기 위해 return-consistency 목표를 도입하여 백업 구조를 규제합니다. 실험 결과, SAC와 PPO에 통합하여 연속 제어 벤치마크에서 성능을 향상시켰고, JD 물류 플랫폼의 A/B 테스트에서도 통계적으로 유의미한 효과를 보였습니다.
AdaGamma는 상태 의존적 할인 방식이 백업 구조를 안정화하고, 이론적으로도 잘 작동하는 것을 분석했습니다. Bellman 연산자를 분석하여 적절한 조건 하에서 기본적인 잘 작동하는 특성을 확인했습니다.
연구진은 AdaGamma가 상태에 따른 할인율을 학습하고 return-consistency 목표를 통해 잘못된 목표 조작을 방지하여 효과적으로 사용할 수 있음을 시사합니다.