연구진은 GUI 환경에서 자율적으로 작동하는 에이전트의 기능 이해 능력을 평가하는 AutoGUI-v2 벤치마크를 새롭게 선보였어요. AutoGUI-v2는 다양한 운영체제에서 2,753개의 작업으로 구성되어 있으며, GUI 영역 및 요소의 의미, 접지, 동적 상태 예측을 테스트해요. 오픈 소스 모델은 기능 접지에서 강점을 보이는 반면, 상용 모델은 기능 캡셔닝에서 우위를 보였지만, 복잡한 상호 작용 로직에서는 어려움을 겪는 것으로 나타났어요.