연구자가 기존 사이버 AI 평가의 한계를 지적하며, 새로운 벤치마크 'PolyRange'를 공개했어요. PolyRange는 LLM으로 생성된 신규 환경을 사용해 기존 벤치마크의 데이터 오염 문제를 해결하고, 능동적인 방어 시스템을 모방했어요. CTF 스타일 벤치마크와 버그 바운티 방식의 한계를 극복하고, 실제 웹 환경과 유사한 조건에서 AI 성능을 평가할 수 있도록 설계됐어요.