ToolCUA는 GUI 액션과 도구 호출을 혼합하여 사용하는 컴퓨터 사용 에이전트(CUA)의 효율적인 경로 선택을 돕는 시스템입니다.
Interleaved GUI-Tool Trajectory Scaling Pipeline을 통해 GUI-도구 혼합 경로를 생성하고, Tool-Bootstrapped GUI RFT와 Online Agentic RL을 적용하여 성능을 향상시켰습니다.
OSWorld-MCP 환경에서 ToolCUA는 46.85%의 정확도를 달성하며 기존 모델 대비 약 66%의 성능 향상을 보였습니다.