연구진은 제한된 모델 용량으로 인해 어려움을 겪는 온디바이스 GUI 에이전트의 성능 향상을 위해 새로운 학습 패러다임을 제안했습니다.
Guided On-policy Distillation을 통해 일반적인 지식 증류를 GUI 에이전트 영역에 통합하고, Multi-solution Dual-level GRPO 프레임워크를 도입하여 장기적인 GUI 에이전트 시나리오에서 탐색을 개선했습니다.
자동 데이터 생성 파이프라인을 구축하여 풍부한 다중 솔루션 주석이 포함된 GUI 작업 트래커리를 합성했으며, 실험 결과 2B/3B 규모 에이전트의 성능을 극대화했습니다.