연구진은 GUI 에이전트의 일반화 성능을 높이기 위해 Video2GUI라는 자동화된 프레임워크를 개발했어요. 이 프레임워크는 인터넷 비디오에서 GUI 상호작용 경로를 추출하여 1200만 개의 상호작용 경로를 포함하는 대규모 데이터셋 WildGUI를 구축했어요.
Video2GUI를 활용해 Qwen2.5-VL과 Mimo-VL을 사전 훈련한 결과, GUI 기반 작업 벤치마크에서 5~20%의 성능 향상을 거두었어요.
연구진은 WildGUI 데이터셋과 Video2GUI 파이프라인을 공개하여 GUI 에이전트 연구를 지원할 예정이에요.