본 논문에서는 강화 학습에서 오프-정책 액터-크리틱 방법의 마지막 반복 수렴률을 확립했습니다. 단일 루프 구현 및 다양한 정책 업데이트 하에서 최소한의 가정 하에 샘플 복잡도 $ε^{-2}$ 보장을 최초로 증명했습니다. 분석 프레임워크는 결합된 리아푸노프 드리프트 프레임워크를 기반으로 하며, 액터의 기하학적 수렴률과 크리틱의 $ ilde{\mathcal{O}}(1/T)$ 수렴률을 결합합니다.