본 연구는 제한된 정책 클래스에서 사용되는 표준 정책 그래디언트 방법의 문제점을 재검토합니다. 정책 그래디언트가 단 한 단계의 Q-함수만을 기반으로 개선되기 때문에 근시안적인 문제에 빠지는 현상을 지적합니다. 이를 해결하기 위해 k-단계 정책 그래디언트 방법을 제안하여 MDP에서 최적의 성능을 보장합니다.
제안된 방법은 k-단계 시간 창 내의 무작위성을 결합하여 기존의 근시안적인 지역 최적점을 벗어날 수 있도록 설계되었습니다. 이론적으로는 최적의 결정적 정책에 대해 지수적으로 가까운 성능을 제공하며, 투영 그래디언트 하강법과 미러 하강법을 통해 이를 달성할 수 있습니다.
본 연구는 기존의 분포 불일치 요소를 회피하여 완전 관찰 환경에서 발생하는 하위 최적의 임계점을 극복하는 데 기여하며, 상태 집계 및 부분적으로 관찰 가능한 협력 다중 에이전트 설정과 같은 어려운 문제에 대한 솔루션을 제공합니다.