연구팀은 웹 에이전트의 프롬프트 인젝션 공격 방어를 위한 WARD (Web Agent Robust Defense) 모델을 제안했어요. WARD는 177K 샘플로 구성된 WARD-Base 데이터셋과 프롬프트 인젝션 공격을 위한 WARD-PIG 데이터셋을 활용했어요.
A3T라는 적대적 공격 훈련 프레임워크를 통해 모델을 지속적으로 강화하여, 배포 환경 변화와 공격 대상 모델에 대한 강건성을 확보했어요.
실험 결과, WARD는 뛰어난 성능과 낮은 오탐율을 유지하며, 웹 에이전트의 효율적인 운영을 지원하는 것으로 나타났어요.