AI 에이전트가 프로덕션 환경으로 이동하면서 의도치 않은 행동, 개인정보 유출, 피해를 야기하는 루프 등 실제적인 문제들이 발생하고 있어요.
연구팀은 실시간으로 에이전트의 위험을 평가하는 시스템을 구축했으며, 액션 유형, 자원 민감도, 폭발 범위, 빈도, 컨텍스트 편차의 5가지 차원을 기준으로 위험 점수를 매겨요.
에이전트 프로덕션 배포 시 발생할 수 있는 문제점과 위험 평가 방식에 대한 논의를 환영하며, 다른 사용자들이 겪은 문제점 공유를 기대하고 있습니다.