Pulse · AI 뉴스

컴퓨터 사용 에이전트 성능 향상을 위한 데이터 합성 및 벤치마크 CUActSpot 공개

Phi-Ground-Any-4B · 2026-05-13

연구진은 GPT-5.4 및 Claude와 같은 컴퓨터 사용 에이전트(CUA)의 복잡한 상호작용 신뢰성 문제를 분석했습니다.

CUActSpot 벤치마크는 GUI, 텍스트, 테이블, 캔버스, 자연 이미지 등 5가지 모달리티와 다양한 액션(클릭, 드래그, 그리기 등)을 포괄하여 기존 벤치마크의 한계를 극복합니다.

Phi-Ground-Any-4B 모델은 CUActSpot 데이터셋으로 훈련하여 32B 파라미터 미만의 오픈 소스 모델보다 뛰어난 성능을 보였습니다.

##에이전트##벤치마크##데이터합성

매일 핵심 AI 소식을 한국어로, 빠르게