Pulse · AI 뉴스

InnerZoom: GUI 정밀 클릭을 위한 단일 패스 증거 연결 프레임워크

InnerZoom · 2026-06-29

연구진이 MLLM 기반 GUI 정밀 클릭(grounding) 모델의 정확도와 효율성을 높이는 InnerZoom 프레임워크를 제안했어요.

InnerZoom은 기존 방식의 단점을 개선해 단일 패스(single-forward)로 GUI 클릭 좌표를 예측하며, 기존 방식보다 지연 시간과 연산량을 줄였어요.

InnerZoom-4B는 OSWorld-G, UI-Vision, OSWorld-GR, MMBench-GUI 6개 벤치마크에서 최고 성능을 달성하며, 두 패스 방식인 ZoomIn보다 평균 1.3% 더 뛰어난 성능을 보였어요.

##GUI##grounding##MLLM##InnerZoom##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기