연구진은 컴퓨터 사용 에이전트(CUA) 훈련에 필요한 대규모 데이터셋 ProCUA-SFT를 공개했어요. 이 데이터셋은 93K개의 합성 트랙션을 기반으로 310만 개의 SFT 샘플로 구성돼 있어요.
ProCUA-SFT는 자동화된 파이프라인으로 생성되며, 실제 콘텐츠를 활용한 다양한 애플리케이션 조합에서 실행 가능성을 검증하는 과정을 거쳐요.
UI-TARS 7B 모델을 ProCUA-SFT로 파인튜닝했을 때 OSWorld 성공률이 45.0%로, 기존 AgentNet 기반 모델보다 35% 이상 향상된 성능을 보여줬어요.