Pulse · AI 뉴스

정책 그래디언트 재검토: k-단계 정책 그래디언트

arXiv cs.LG · 2026-05-12

본 연구는 제한된 정책 클래스에서 사용되는 표준 정책 그래디언트 방법의 문제점을 재검토합니다. 정책 그래디언트가 단 한 단계의 Q-함수만을 기반으로 개선되기 때문에 근시안적인 문제에 빠지는 현상을 지적합니다. 이를 해결하기 위해 k-단계 정책 그래디언트 방법을 제안하여 MDP에서 최적의 성능을 보장합니다.

제안된 방법은 k-단계 시간 창 내의 무작위성을 결합하여 기존의 근시안적인 지역 최적점을 벗어날 수 있도록 설계되었습니다. 이론적으로는 최적의 결정적 정책에 대해 지수적으로 가까운 성능을 제공하며, 투영 그래디언트 하강법과 미러 하강법을 통해 이를 달성할 수 있습니다.

본 연구는 기존의 분포 불일치 요소를 회피하여 완전 관찰 환경에서 발생하는 하위 최적의 임계점을 극복하는 데 기여하며, 상태 집계 및 부분적으로 관찰 가능한 협력 다중 에이전트 설정과 같은 어려운 문제에 대한 솔루션을 제공합니다.

##정책그래디언트##최적화##강화학습##k-단계##MDP

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기