Pulse · AI 뉴스

Video2GUI: 대규모 GUI 에이전트 사전 훈련을 위한 상호작용 경로 생성

Qwen · 2026-05-14

연구진은 GUI 에이전트의 일반화 성능을 높이기 위해 Video2GUI라는 자동화된 프레임워크를 개발했어요. 이 프레임워크는 인터넷 비디오에서 GUI 상호작용 경로를 추출하여 1200만 개의 상호작용 경로를 포함하는 대규모 데이터셋 WildGUI를 구축했어요.

Video2GUI를 활용해 Qwen2.5-VL과 Mimo-VL을 사전 훈련한 결과, GUI 기반 작업 벤치마크에서 5~20%의 성능 향상을 거두었어요.

연구진은 WildGUI 데이터셋과 Video2GUI 파이프라인을 공개하여 GUI 에이전트 연구를 지원할 예정이에요.

##GUI##에이전트##데이터셋##사전훈련##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기