컴퓨터 사용 에이전트가 웹 탐색, 데스크톱 자동화, 소프트웨어 상호 작용 등 실제 작업에서 빠른 발전을 이루며, 때로는 인간의 성능을 능가하기도 합니다.
작업과 모델이 동일하더라도 에이전트가 한 번 성공한 작업을 반복 실행하면 실패할 수 있는데, 이는 에이전트의 신뢰성에 대한 근본적인 질문을 제기합니다.
연구 결과, 신뢰성은 작업의 명확성과 에이전트 행동의 변동성에 따라 달라지며, 반복 실행을 통한 평가, 상호 작용을 통한 작업 모호성 해결, 그리고 안정적인 전략 선호가 필요함을 시사합니다.