Anthropic은 Claude 에이전트의 접근 권한을 확대하면서 위험 관리의 중요성을 인식하고 있습니다. 초기에는 내부 서비스 마비 가능성을 우려했지만, 안전 장치와 모델 훈련 개선으로 위험을 줄이고 생산성을 높였습니다.
Anthropic은 에이전트의 위험을 줄이기 위해 환경 격리, 모델 행동 제어, 외부 공격 방어 등 3가지 주요 방어 요소를 구축했습니다. Claude Code의 경우, 자동 승인 모드를 도입하여 사용자 피로도를 줄이고 보안 취약점을 최소화했습니다.
Anthropic은 Claude Mythos Preview와 같이 위험도가 높은 모델은 출시를 연기하고, 시스템 강화 및 안전 장치 개선을 통해 점진적으로 배포할 계획입니다. 모델 능력 향상과 함께 보안 강화 노력을 지속하여 안전한 에이전트 활용 환경을 제공할 것입니다.