VISTA는 GUI 그라운딩 시 GRPO 훈련의 효율성을 높이는 새로운 프레임워크입니다. 여러 시점에서 동일 GUI 인스턴스의 뷰를 활용하여 비교 그룹을 구성하고, 모델의 롤아웃을 비교합니다.
자가 검증된 앵커를 추가하여 짧은 좌표 생성을 안정화하고, 모델이 최대 보상 롤아웃을 생성했을 때만 활성화합니다.
ScreenSpot-Pro 벤치마크에서 Qwen3-VL 4B/8B/30B-A3B의 정확도를 각각 55.5%, 52.7%, 53.7%에서 63.4%, 65.8%, 67.0%로 향상시켰습니다.