연구진은 LLM 에이전트의 안전한 운영을 위해 SafeMCP라는 방어 플러그인을 제안했어요. SafeMCP는 미래의 안전 위험에 대한 예측적 추론을 통해 위험한 도구 획득을 제한하고, 문제가 발생하면 즉시 개입하는 2단계 방어 시스템을 구축해요.
환경 동적 접지, 안전 정책 초기화, 이중 검증 가능한 보상을 활용한 3단계 파이프라인으로 SafeMCP를 학습시켜 에이전트의 유용성을 유지하면서 안전한 균형을 달성했어요.
PowerSeeking Bench, ToolEmu, AgentHarm 실험 결과, SafeMCP는 위험을 효과적으로 완화하는 것으로 나타났어요.