Pulse · AI 뉴스

강화 학습 알고리즘, 근접 정책 최적화(PPO) 공개

OpenAI · 2017-07-20

Proximal Policy Optimization(PPO)은 최첨단 방식과 유사하거나 더 나은 성능을 보이지만 구현 및 튜닝이 훨씬 간단한 새로운 강화 학습 알고리즘입니다.

PPO는 사용 편의성과 뛰어난 성능 덕분에 OpenAI의 기본 강화 학습 알고리즘으로 자리 잡았습니다.

##강화학습##PPO##OpenAI

매일 핵심 AI 소식을 한국어로, 빠르게