연구팀은 LLM 에이전트 스킬의 위험성을 측정하기 위해 'Proteus'라는 자기 진화형 레드 팀 프레임워크를 개발했어요. Proteus는 스킬 공격 공간을 체계적으로 탐색하며, 감사 및 샌드박스 테스트를 통해 공격 성공률을 평가합니다.
Proteus는 초기 회피뿐만 아니라 공격 경로 확장 및 표면 확장 기능을 통해 새로운 공격 목표를 학습하고 변형된 공격을 생성하여 기존 감사 시스템의 취약점을 드러냈어요.
실험 결과, Proteus는 5라운드 내에 40~90%의 공격 성공률을 기록했으며, 현재 스킬 검증 방식이 실제 공격에 대한 위험을 과소평가하고 있음을 보여줬어요.