연구진이 실제 업무 환경의 복잡한 GUI 작업을 평가하는 Workflow-GYM 벤치마크를 공개했어요. 기존 벤치마크는 짧은 작업과 일반적인 소프트웨어에 집중했지만, Workflow-GYM은 전문 분야의 소프트웨어와 장기적인 업무 흐름을 평가합니다.
최신 모델을 테스트한 결과, 성공률이 30%를 조금 넘는 수준으로, 전문적인 장기 GUI 작업은 여전히 AI 에이전트에게 어려운 과제임을 보여줬어요.
분석 결과, 현재 에이전트는 업무 흐름 일관성 유지, 오류 전파, 목표 변경, 전문 소프트웨어 환경 이해 부족 등의 어려움을 겪는 것으로 나타났어요.