Pulse · AI 뉴스

LLM의 익스플로잇 개발 능력 측정

Anthropic · 2026-05-22

Anthropic이 Claude Opus 4.7을 공개하며, 이전 모델보다 익스플로잇 개발 능력이 크게 향상된 점을 강조했어요. Claude Opus 4.7은 취약점을 발견하고, 이를 익스플로잇 원형으로 만들고, 여러 원형을 연결해 완전한 공격 체인을 구축할 수 있어요.

Anthropic은 ExploitBench와 ExploitGym과 같은 새로운 벤치마크를 활용해 Claude Opus 4.7의 성능을 측정했는데, 모든 벤치마크에서 다른 모델보다 뛰어난 성능을 보였어요. SCONE-bench에서도 Claude Opus 4.7은 우수한 성능을 기록했어요.

ExploitBench는 V8 엔진의 취약점을 이용한 익스플로잇 개발 능력을 평가하는 벤치마크로, 16가지 능력 단계를 평가하며, 최고 단계는 V8 프로세스 전체의 제어 권한 획득을 의미해요. Anthropic은 이 벤치마크에서 Claude Opus 4.7이 다른 모델보다 높은 점수를 기록하며, 익스플로잇 개발에 필요한 지식과 전문성이 LLM의 발전으로 인해 낮아질 것이라는 점을 시사했어요.

##LLM##익스플로잇##보안##Anthropic##ClaudeOpus

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기