Pulse · AI 뉴스

Workflow-GYM: 실제 업무 환경의 복잡한 GUI 작업 평가 벤치마크

Workflow-GYM · 2026-06-09

연구진이 실제 업무 환경의 복잡한 GUI 작업을 평가하는 벤치마크 Workflow-GYM을 공개했어요. 기존 벤치마크는 짧은 작업과 일반적인 소프트웨어에 집중했지만, Workflow-GYM은 전문 분야의 소프트웨어를 활용한 장기적인 작업 흐름을 평가합니다.

최신 모델들을 Workflow-GYM으로 테스트한 결과, 성공률이 30%를 조금 넘는 수준으로, 전문적인 장기 GUI 작업은 여전히 AI 에이전트에게 어려운 과제임을 보여줬어요.

분석 결과, 현재 에이전트는 작업 흐름의 일관성을 유지하는 데 어려움을 겪으며, 단계 누락, 오류 전파, 목표 변경, 전문 소프트웨어 환경 이해 부족 등의 문제를 드러냈어요.

##에이전트##GUI##벤치마크##Workflow-GYM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기