Pulse · AI 뉴스

Evolved Policy Gradients: 새로운 메타러닝 접근 방식 공개

OpenAI · 2018-04-18

Evolved Policy Gradients(EPG)는 학습 에이전트의 손실 함수를 진화시키는 실험적인 메타러닝 방식이에요.

EPG로 훈련된 에이전트는 훈련 환경 외의 새로운 작업에서도 기본적인 성공을 거둘 수 있어요.

예를 들어, 훈련 시 놓인 위치와 다른 곳에 있는 물체로 이동하는 작업을 테스트 시점에 수행할 수 있어요.

##메타러닝##강화학습##정책경사법

매일 핵심 AI 소식을 한국어로, 빠르게