Pulse · AI 뉴스

Gaze 헤드: 시각 언어 모델이 묘사하는 이미지에 주목하는 방식

Gaze · 2026-06-13

연구진은 시각 언어 모델(VLM)이 이미지를 묘사할 때 특정 주의 집중 메커니즘을 사용한다는 사실을 발견했어요.

이 메커니즘은 'Gaze 헤드'라고 불리는 언어 모델 백본의 작은 주의 집중 헤드 집합으로, 모델이 현재 묘사하는 이미지 영역을 추적해요.

Gaze 헤드를 조작하면 모델이 특정 이미지 영역을 묘사하도록 유도할 수 있으며, 이는 모델의 답변을 제어하는 데 효과적인 방법으로 활용될 수 있어요.

이러한 메커니즘은 다양한 모델 크기 및 아키텍처에서 발견되며, 모델의 행동을 제어하는 실용적인 추론 시간 레버로 활용될 수 있음을 보여줘요.

##VLM##시각언어모델##GazeHead##인공지능##연구

매일 핵심 AI 소식을 한국어로, 빠르게