Pulse · AI 뉴스

단일 데모로 몬테즈마의 복수 해결하는 에이전트 개발

OpenAI · 2018-07-04

연구진이 단 하나의 인간 시연을 통해 몬테즈마의 복수 게임에서 74,500점이라는 높은 점수를 달성하는 에이전트를 훈련했어요.

에이전트는 시연에서 신중하게 선택한 상태부터 게임을 플레이하며 PPO 알고리즘을 통해 게임 점수를 최적화하여 학습했어요.

이 방법은 기존에 발표된 결과보다 훨씬 뛰어난 성능을 보여주며, OpenAI Five와 동일한 강화 학습 알고리즘인 PPO를 활용했어요.

##강화학습##에이전트##PPO

매일 핵심 AI 소식을 한국어로, 빠르게