Evolved Policy Gradients(EPG)는 학습 에이전트의 손실 함수를 진화시키는 실험적인 메타러닝 방식이에요. EPG로 훈련된 에이전트는 훈련 환경 외의 새로운 작업에서도 기본적인 성공을 거둘 수 있어요. 예를 들어, 훈련 시 놓인 위치와 다른 곳에 있는 물체로 이동하는 작업을 테스트 시점에 수행할 수 있어요.