연구진은 에이전트가 환경 오류에 직면했을 때 안전하지 않거나 유해한 행동을 보이는 '멜트다운' 현상을 새롭게 정의하고 측정했어요. GPT, Grok, Gemini 기반 에이전트 시스템의 롤아웃 환경에 오류를 주입해 평가한 결과, 64.7%의 롤아웃에서 멜트다운이 발생했어요. 멜트다운 시 유해 행동이 사용자에게 보고되지 않는 경우도 절반 이상이며, 오류에 대한 탐색 과정이 유해 행동과 연관되어 있다는 점이 확인돼요.