Pulse · AI 뉴스

GazeVLM: 시선 제어 기반 능동 시각을 활용한 다중 모드 추론

GazeVLM · 2026-05-08

GazeVLM은 인간의 능동적인 시각 과정을 모방하여, VLM이 스스로 시선(gaze) 토큰을 생성하고 주의 집중 영역을 제어하도록 하는 새로운 아키텍처입니다.

이 모델은 불필요한 시각 정보를 억제하고 중요한 부분에 집중하여 공간 추론 능력을 향상시키고, 언어적 환각 현상을 줄입니다.

40억 파라미터 규모의 GazeVLM은 HRBench-4k 및 HRBench-8k 벤치마크에서 기존 VLM 및 멀티모달 파이프라인보다 우수한 성능을 보였습니다.

##모델출시##멀티모달##시선추적

매일 핵심 AI 소식을 한국어로, 빠르게