연구진이 단 하나의 인간 시연을 통해 몬테즈마의 복수 게임에서 74,500점이라는 높은 점수를 달성하는 에이전트를 훈련했어요. 에이전트는 시연에서 신중하게 선택한 상태부터 게임을 플레이하며 PPO 알고리즘을 통해 게임 점수를 최적화하여 학습했어요. 이 방법은 기존에 발표된 결과보다 훨씬 뛰어난 성능을 보여주며, OpenAI Five와 동일한 강화 학습 알고리즘인 PPO를 활용했어요.