Pulse · AI 뉴스

AutoGUI-v2: GUI 기능 이해 벤치마크

Qwen · 2026-04-27

연구진은 GUI 환경에서 자율적으로 작동하는 에이전트의 기능 이해 능력을 평가하는 AutoGUI-v2 벤치마크를 새롭게 선보였어요.

AutoGUI-v2는 다양한 운영체제에서 2,753개의 작업으로 구성되어 있으며, GUI 영역 및 요소의 의미, 접지, 동적 상태 예측을 테스트해요.

오픈 소스 모델은 기능 접지에서 강점을 보이는 반면, 상용 모델은 기능 캡셔닝에서 우위를 보였지만, 복잡한 상호 작용 로직에서는 어려움을 겪는 것으로 나타났어요.

##GUI##벤치마크##VLM##에이전트##AutoGUI-v2

매일 핵심 AI 소식을 한국어로, 빠르게