연구진은 웹에 존재하는 다양한 절차적 지식을 에이전트가 활용할 수 있도록 변환하는 '가이드-투-스킬 학습' 문제를 제기했어요.
MMG2Skill-Bench라는 새로운 벤치마크를 통해 기존 에이전트의 성능을 평가하고, 가이드를 편집 가능한 기술로 컴파일하고 실행 경로 피드백을 통해 지속적으로 개선하는 MMG2Skill 프레임워크를 제안했어요.
MMG2Skill은 6가지 VLM 백본에서 GUI 제어, 게임, 카드 게임 등 다양한 환경에서 기존 에이전트 대비 12.8~25.3% 성능 향상을 달성했어요.