연구진이 온라인 멀티턴 강화 학습(RL)을 활용해 시각 웹 에이전트를 훈련하는 오픈 프레임워크 OpenWebRL을 공개했어요. OpenWebRL은 실제 웹사이트에서 에이전트를 훈련하는 전체 파이프라인을 포함하며, 기존 오픈 소스 에이전트보다 뛰어난 성능을 보여요. OpenWebRL-4B는 0.4K의 초기화 트레이저리와 2.2K의 RL 훈련 작업만으로 Online-Mind2Web과 DeepShop 벤치마크에서 최고 성능을 달성했어요.