Proximal Policy Optimization(PPO)은 최첨단 방식과 유사하거나 더 나은 성능을 보이지만 구현 및 튜닝이 훨씬 간단한 새로운 강화 학습 알고리즘입니다. PPO는 사용 편의성과 뛰어난 성능 덕분에 OpenAI의 기본 강화 학습 알고리즘으로 자리 잡았습니다.