연구진은 GPT-5.4 및 Claude와 같은 컴퓨터 사용 에이전트(CUA)의 복잡한 상호작용 신뢰성 문제를 분석했습니다.
CUActSpot 벤치마크는 GUI, 텍스트, 테이블, 캔버스, 자연 이미지 등 5가지 모달리티와 다양한 액션(클릭, 드래그, 그리기 등)을 포괄하여 기존 벤치마크의 한계를 극복합니다.
Phi-Ground-Any-4B 모델은 CUActSpot 데이터셋으로 훈련하여 32B 파라미터 미만의 오픈 소스 모델보다 뛰어난 성능을 보였습니다.