Pulse · AI 뉴스

WindowsWorld: 전문적인 크로스 애플리케이션 환경에서 자율 GUI 에이전트의 프로세스 중심 벤치마크

arXiv cs.CL · 2026-04-30

연구진은 여러 애플리케이션을 활용하는 복잡한 전문 워크플로우를 평가하기 위한 WindowsWorld라는 새로운 벤치마크를 발표했어요.

WindowsWorld는 16개 직업을 기반으로 181개의 작업과 평균 5개의 하위 목표를 포함하며, 78%가 여러 애플리케이션을 사용해야 하는 작업으로 구성돼 있어요.

실험 결과, 현재의 대부분 GUI 에이전트는 여러 애플리케이션을 사용하는 작업에서 낮은 성공률을 보이며, 조건부 판단과 추론 능력이 부족한 것으로 나타났어요.

##GUI에이전트##벤치마크##WindowsWorld##크로스애플리케이션
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기