연구진은 기존 평가 방법의 한계를 극복하기 위해, GUI 상호작용의 정확한 상태 설정을 평가하는 벤치마크 FineState-Bench를 새롭게 선보였어요.
FineState-Bench는 데스크톱, 웹, 모바일 플랫폼을 아우르며, 2,209개의 인스턴스와 23가지 UI 구성 요소를 포함하고, 각 인스턴스가 정확한 목표 상태를 명시하고 있어요.
FineState-Bench는 시각적 그라운딩 개선을 통해 Gemini-2.5-Flash의 정확도를 14.9% 향상시켰지만, 여전히 정교한 상태 조건부 상호작용에는 부족한 모습을 보여요.