Wasserstein 정책 최적화(WPO)는 연속 액션 공간에서 확률적 정책을 최적화하기 위해 Wasserstein 기울기 흐름을 활용하는 강화 학습 알고리즘입니다. 연속 상태 및 액션 공간 환경에서 WPO의 이론적 수렴 특성은 아직 완전히 확립되지 않았습니다. 본 연구에서는 엔트로피 정규화된 마르코프 결정 과정 프레임워크 내에서 WPO가 선형적으로 수렴한다고 주장합니다.
최근의 평균장 분석을 활용하여 로그-소보레프 부등식을 사용하여 기울기 흐름의 수렴을 분석했습니다. 충분히 규칙적인 기울기 흐름 방정식의 해가 존재한다고 가정하면 흐름을 따라 단조적인 에너지 소산이 있음을 보여주고 지역 로그-소보레프 부등식을 확립했습니다.
궁극적으로 이러한 속성은 값 함수가 전역 최적점에 선형적으로 수렴해야 함을 주장하는 데 사용됩니다.