Pulse · AI 뉴스

안전한가, 아니면 단순히 불가능한가: 전화 사용 에이전트 안전성 평가 재고

PhoneSafety · 2026-05-08

연구진은 전화 사용 에이전트가 위험을 회피하는 것이 실제로 안전성을 의미하는지, 아니면 단순히 행동할 수 없는 것인지에 대한 문제를 제기했습니다.

새로운 벤치마크 PhoneSafety는 700개의 안전 관련 순간을 분석하여 모델이 안전한 행동을 하는지, 위험한 행동을 하는지, 아니면 아무것도 하지 못하는지를 평가합니다.

연구 결과, 일반적인 앱 작업 능력이 뛰어나다고 해서 위험한 순간에 안전한 선택을 하는 것과 반드시 연결되지 않으며, 실패는 시각적, 운영적으로 까다로운 환경에서 주로 발생합니다.

##에이전트##안전성##평가

매일 핵심 AI 소식을 한국어로, 빠르게