연구진이 MLLM 기반 GUI 정밀 클릭(grounding) 모델의 정확도와 효율성을 높이는 InnerZoom 프레임워크를 제안했어요.
InnerZoom은 기존 방식의 단점을 개선해 단일 패스(single-forward)로 GUI 클릭 좌표를 예측하며, 기존 방식보다 지연 시간과 연산량을 줄였어요.
InnerZoom-4B는 OSWorld-G, UI-Vision, OSWorld-GR, MMBench-GUI 6개 벤치마크에서 최고 성능을 달성하며, 두 패스 방식인 ZoomIn보다 평균 1.3% 더 뛰어난 성능을 보였어요.