Pulse · AI 뉴스

최첨단 LLM 에이전트의 오펜시브 사이버 보안 능력 벤치마킹

OpenAI · 2026-04-19

연구진이 NYU CTF 벤치 200개 챌린지를 활용해 7개 공급업체의 10개 최첨단 모델을 벤치마킹했습니다.

Claude 4.5 Opus 모델이 59%의 최고 해결률을 기록했으며, Gemini 3 Pro는 52%, Gemini 3 Flash는 비용 효율성이 뛰어났습니다.

Kali Linux 환경이 Ubuntu 환경보다 성능을 9.5% 향상시켰으며, 프롬프트 엔지니어링은 잘 갖춰진 환경에서는 오히려 성능을 저하시키는 경향이 있었습니다.

##LLM##사이버보안##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게