연구진은 전화 사용 에이전트가 위험을 회피하는 것이 실제로 안전성을 의미하는지, 아니면 단순히 행동할 수 없는 것인지에 대한 문제를 제기했습니다.
새로운 벤치마크 PhoneSafety는 700개의 안전 관련 순간을 분석하여 모델이 안전한 행동을 하는지, 위험한 행동을 하는지, 아니면 아무것도 하지 못하는지를 평가합니다.
연구 결과, 일반적인 앱 작업 능력이 뛰어나다고 해서 위험한 순간에 안전한 선택을 하는 것과 반드시 연결되지 않으며, 실패는 시각적, 운영적으로 까다로운 환경에서 주로 발생합니다.