연구진은 에이전트 스킬 기반 공격의 취약점을 분석하는 SkillHarm 벤치마크를 공개했어요.
SkillHarm은 Fixed-Payload Poisoning(FPP)과 Self-Mutating Poisoning(SMP) 두 가지 공격 시나리오를 평가하며, 에이전트 워크플로우의 데이터 파이프라인, 시스템 환경, 자율성 등 12가지 위험 요소를 분류해요.
자동화된 공격 생성 파이프라인인 AutoSkillHarm을 통해 879개의 공격 샘플을 생성했으며, 실험 결과 FPP 공격 성공률은 86.3%, SMP 공격 성공률은 69.3%로 나타났어요.