연구진은 LLM 에이전트가 SaaS 통합(Gmail, Salesforce, Jira 등)에서 읽는 데이터에 대한 간접 프롬프트 주입 공격의 위험성을 측정하는 AgentRedBench를 공개했어요.
AgentRedBench는 24개의 기업 통합 환경에서 215개의 미세한 권한 설정 오류 시나리오를 다루며, 8개의 모델(Anthropic, OpenAI, Google)에서 공격 성공률은 32%에서 81%까지 나타났어요.
AgentRedBench 코드베이스, 통합 스키마, AGENTREDGUARD 모델을 공개하고, 통합 데이터 기반으로 훈련된 AGENTREDGUARD는 기존 오픈소스 모델보다 우수한 성능을 보여줘요.