연구진은 AI 에이전트의 안전성을 평가하는 새로운 벤치마크 'Boiling the Frog'을 공개했어요. 이 벤치마크는 AI 에이전트가 점진적인 공격에 얼마나 취약한지 측정하는 데 초점을 맞추고 있어요.
Boiling the Frog은 기업 환경에서 AI 에이전트가 안전하지 않은 상태로 이어질 수 있는 멀티턴 시나리오를 평가하며, 초기에는 무해한 작업으로 시작하지만 점차 위험을 초래하는 요청을 포함해요.
9개 모델을 대상으로 한 평가 결과, 평균 공격 성공률은 44.4%였으며, Claude Haiku 4.5는 20.5%, Gemini 3.1 Flash Lite는 92.9%로 가장 높은 성공률을 기록했어요.