GLANCE는 VLM 에이전트가 자신의 내부 세계 모델에 대한 불확실성을 줄이기 위해 시각-언어 불일치를 호기심 신호로 활용하는 프레임워크입니다. GLANCE는 에이전트의 언어적 세계 모델을 진화하는 대상 네트워크의 안정적인 시각적 표현에 연결하여 추론과 탐색을 연결합니다. 실험 결과, GLANCE는 복잡하거나 희소한 에이전트 작업에서 효과적이며, 에이전트가 생각하는 것과 보는 것을 일치시키는 것이 중요함을 보여줍니다.