연구진은 AI 페네트레이션 테스팅 에이전트의 실제 환경 성능 평가를 위한 새로운 프로토콜을 개발했습니다. 기존 벤치마크는 단순화된 환경에서 특정 목표 달성 여부를 측정하는 데 한계가 있었습니다.
새로운 프로토콜은 과제 완료가 아닌 검증된 취약점 발견을 통해 복잡한 환경에서 평가를 진행하며, LLM 기반 의미 매칭과 양방향 해결 방식을 활용합니다.
연구진은 평가 프로토콜과 전문가가 주석을 단 데이터, 코드를 GitHub에 공개하여 재현 가능성을 높였습니다.