연구진은 시각-언어 모델 기반 모바일 에이전트의 성능 향상을 위해 오픈소스 프레임워크 OpenMobile을 개발했습니다.
OpenMobile은 환경 메모리 구축 및 다양한 작업 지침 생성 파이프라인과 정책 전환 전략을 통해 고품질 작업 지침과 에이전트 경로를 합성합니다.
Qwen2.5-VL 및 Qwen3-VL 모델을 활용하여 AndroidWorld 벤치마크에서 기존 오픈 데이터 접근 방식보다 뛰어난 성능을 달성했으며, 데이터 및 코드를 공개하여 모바일 에이전트 연구를 지원합니다.