연구진이 NYU CTF 벤치 200개 챌린지를 활용해 7개 공급업체의 10개 최첨단 모델을 벤치마킹했습니다. Claude 4.5 Opus 모델이 59%의 최고 해결률을 기록했으며, Gemini 3 Pro는 52%, Gemini 3 Flash는 비용 효율성이 뛰어났습니다. Kali Linux 환경이 Ubuntu 환경보다 성능을 9.5% 향상시켰으며, 프롬프트 엔지니어링은 잘 갖춰진 환경에서는 오히려 성능을 저하시키는 경향이 있었습니다.