연구진이 GUI 정밀 클릭을 위한 새로운 프레임워크 InnerZoom을 제안했어요. 기존 방식의 단점을 보완, 단일 패스로 정확도를 높이고 속도를 개선했어요.
InnerZoom은 MLLM의 중간 레이어에서 정보를 보존하고, 단층 증거 상태로 변환하여 좌표 예측을 가이드해요.
OSWorld-G, UI-Vision, OSWorld-GR, MMBench-GUI 6개 벤치마크에서 최고 성능을 달성했으며, 기존 방식 대비 최대 31.8% 속도 향상 효과를 보였어요.