연구진은 자율 정책 진화 평가를 위한 새로운 환경 EvoPolicyGym을 소개했어요. EvoPolicyGym은 제한된 예산 하에 harness-model 에이전트가 반복적으로 실행 가능한 정책 시스템을 편집하는 환경을 제공해요. GPT-5.5는 EvoPolicyGym 테스트에서 가장 높은 종합 순위 점수를 기록하고 16개 환경 모두에서 2위 이내의 성과를 거두었어요.
EvoPolicyGym은 에이전트가 예산을 어떻게 할당하고 피드백을 매개변수 튜닝으로 변환하는지 진단하는 trajectory-level 분석을 제공해요. 분석 결과, 강력한 자율 정책 진화는 단순한 작업 승리뿐 아니라 작업에 적합한 메커니즘을 발견하고 제한된 피드백 하에서 정책을 개선하는 데 달려 있어요.
연구 결과는 자율 에이전트가 피드백을 통해 실행 가능한 정책을 개선하는 과정을 평가하는 데 있어 새로운 관점을 제시하며, 향후 자율 시스템 개발에 중요한 시사점을 제공할 것으로 기대돼요.