Pulse · AI 뉴스

AutoFocus: 불확실성 기반 GUI 그라운딩을 위한 능동 시각 검색

arXiv cs.CV · 2026-05-04

연구진은 고해상도 인터페이스에서 GUI 그라운딩 성능 저하 문제를 해결하기 위해 AutoFocus라는 새로운 프레임워크를 제안했습니다.

AutoFocus는 좌표 생성 시 토큰 단위의 perplexity를 활용하여 공간적 불확실성을 모델링하고, 이를 바탕으로 지역 제안을 생성하고 해상도를 조정합니다.

ScreenSpot-Pro 및 ScreenSpot-V2 데이터셋에서 다양한 VLM 모델에 대해 성능 향상을 보였습니다.

##GUI##그라운딩##VLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기