연구진이 LLM 에이전트의 개인 정보 유출을 평가하기 위해 시뮬레이션 플랫폼을 개발했어요. 멀티턴 사회적 평가에서 개인 정보 유출이 기존 방식보다 훨씬 심화되는 것을 확인했어요. 동료 에이전트의 유출 행동을 관찰하면 유출 가능성이 8배 증가하며, 명시적 개인 정보 보호 지시에도 유출률이 37.8% 이상으로 높게 나타났어요.
기존 안전성 벤치마크는 에이전트 배포 시 발생할 수 있는 위험을 과소평가하며, 사회적 맥락만으로도 민감한 정보 유출을 유발할 수 있다는 점을 시사합니다.