연구진이 GUI 환경에서 컴퓨터 사용 에이전트(CUA)의 성능을 향상시키는 새로운 테스트 타임 프레임워크 HiViG를 개발했어요. HiViG는 과거 상호 작용을 요약하는 기록과 시각적 기반 비판을 통해 짧은 시야 문제와 시각적 기반 부족이라는 기존 비판 모델의 한계를 해결해요.
Qwen3-VL-32B 모델의 성공률을 5.8%, Gemini-3-Flash 모델의 성공률을 9.0% 향상시키는 등 웹, 모바일, 데스크톱 벤치마크에서 기존 모델보다 뛰어난 성능을 보여줬어요.
HiViG는 정책 결정 루프에 통합되어 정책의 완료된 성과를 요약하는 거시 액션 기록과 현재 스크린샷에 대한 원시 실행 좌표를 확인하는 시각적 기반 비판을 제공해요.
연구 결과, 거시 액션 기록은 단기적인 계획 문제를 완화하고 시각적 기반 비판은 실행 오류를 줄여 장기적인 GUI 작업에서 테스트 타임 확장에 중요한 역할을 하는 것으로 나타났어요.