본 연구는 강화 학습에서 할인된 보상 설정을 다룹니다. 기존 정책 경사 방법의 가치 근사 문제를 완화하기 위해 Actor-Critic 방법이 개발되었으며, 특정 조건 하에서 고정점 수렴을 보장합니다.
연구진은 2차 최적화가 수렴 속도를 가속화할 수 있지만, 헤세이언 추정의 복잡성으로 인해 강화 학습에 적용하기 어려움을 분석했습니다.
두 가지 시간 척도 Actor-Critic 프레임워크를 활용하여 안정적인 2차 Actor-Critic 방법을 제안하고, 헤세이안-벡터 곱셈(HVP) 계산을 통해 효율적인 업데이트를 가능하게 합니다.