연구진은 에이전트가 개인정보를 활용하여 작업을 수행하는 과정에서 개인정보 유출 위험을 평가하기 위해 TRAP(Task-completion and Resistance to Active Privacy-extraction) 벤치마크를 발표했어요.
TRAP은 개인정보가 포함된 문서를 활용하여 작업 완료 능력과 개인정보 추출 공격에 대한 저항력을 측정하며, 22개 모델을 분석한 결과 모든 모델에서 개인정보 유출이 발생했어요.
프롬프트 기반 방어는 개인정보 유출을 줄이지만 작업 정확도가 크게 떨어지고, 구조적 개인정보 필드 격리는 유출을 효과적으로 막으면서 작업 정확도를 유지하는 것으로 나타났어요.