연구진은 모바일 GUI 탐색을 위한 비전-언어 모델(VLM) 에이전트의 데이터 확장, 벤치마킹, 추론을 체계적으로 연구했어요. HyperTrack 데이터셋과 GUIEvalKit 툴킷을 공개하여 VLM의 오프라인 GUI 탐색 작업 평가를 지원하며, 데이터 규모가 추론 성능에 미치는 영향을 분석했어요. 강화 학습 기반 미세 조정이 지도 학습 기반 미세 조정보다 우수하며, 특히 새로운 환경에서 성능이 뛰어나다는 점을 확인했어요.