연구진이 온라인 강화 학습(RL)을 활용해 실제 웹사이트에서 시각 웹 에이전트를 훈련하는 오픈 프레임워크 OpenWebRL을 공개했어요.
OpenWebRL은 확장 가능한 브라우저 인프라, 시각적 컨텍스트 관리, 성공 판단, 다중 턴 정책 최적화 등 전체 훈련 파이프라인을 포함하고 있어요.
OpenWebRL-4B 모델은 0.4K 초기화 트레이저토리와 2.2K RL 훈련 작업으로 Online-Mind2Web에서 67.0%, DeepShop에서 64.0%의 성공률을 기록하며 오픈 소스 최고 성능을 달성했어요.