GazeVLM은 인간의 능동적인 시각 과정을 모방하여, VLM이 스스로 시선(gaze) 토큰을 생성하고 주의 집중 영역을 제어하도록 하는 새로운 아키텍처입니다. 이 모델은 불필요한 시각 정보를 억제하고 중요한 부분에 집중하여 공간 추론 능력을 향상시키고, 언어적 환각 현상을 줄입니다. 40억 파라미터 규모의 GazeVLM은 HRBench-4k 및 HRBench-8k 벤치마크에서 기존 VLM 및 멀티모달 파이프라인보다 우수한 성능을 보였습니다.