EvoPolicyGym은 자율 정책 진화를 평가하는 새로운 환경입니다. GPT-5.5는 EvoPolicyGym 환경 16곳에서 최고 순위 점수를 기록하고 2등 이내의 성과를 거두었습니다. EvoPolicyGym은 에이전트가 예산을 어떻게 배분하고 피드백을 매개변수 튜닝으로 전환하는지 진단하는 정보를 제공합니다.
자율 정책 진화는 단순히 과제 해결 능력뿐 아니라, 과제에 적합한 메커니즘을 발견하고 제한된 피드백 하에서 정책을 개선하는 능력에 달려있습니다. EvoPolicyGym은 이러한 과정을 평가하고 분석하는 데 사용될 수 있습니다.
연구 결과는 자율 에이전트가 실행 가능한 정책을 반복적으로 개선하는 과정을 평가하는 데 있어 새로운 접근 방식의 필요성을 강조합니다.