연구진은 여러 애플리케이션을 활용하는 복잡한 전문 워크플로우를 평가하기 위한 WindowsWorld라는 새로운 벤치마크를 발표했어요.
WindowsWorld는 16개 직업을 기반으로 181개의 작업과 평균 5개의 하위 목표를 포함하며, 78%가 여러 애플리케이션을 사용해야 하는 작업으로 구성돼 있어요.
실험 결과, 현재의 대부분 GUI 에이전트는 여러 애플리케이션을 사용하는 작업에서 낮은 성공률을 보이며, 조건부 판단과 추론 능력이 부족한 것으로 나타났어요.