Pulse · AI 뉴스

사이버 방어 벤치마크: LLM 기반 에이전트의 위협 탐색 평가

OpenAI · 2026-04-21

새로운 사이버 방어 벤치마크가 LLM 에이전트의 위협 탐색 성능을 평가하는 환경을 제공하며, Windows 이벤트 로그 데이터베이스에서 악성 이벤트 발생 시간을 식별하는 능력을 측정합니다.

이 벤치마크는 OTRF Security-Datasets 데이터셋의 실제 공격 절차 106개를 활용하여 Gymnasium 환경에서 LLM 에이전트의 성능을 평가하며, 현재 모델들은 매우 낮은 정확도를 보입니다.

연구 결과, 현재 LLM은 큐레이션된 Q&A 보안 벤치마크에서는 좋은 성능을 보이지만, 실제 위협 탐색에는 적합하지 않다는 것을 보여줍니다.

##사이버방어##LLM##위협탐색

매일 핵심 AI 소식을 한국어로, 빠르게