연구진은 시각 언어 모델(VLM)이 이미지를 묘사할 때 특정 주의 집중 메커니즘을 사용한다는 사실을 발견했어요.
이 메커니즘은 'Gaze 헤드'라고 불리는 언어 모델 백본의 작은 주의 집중 헤드 집합으로, 모델이 현재 묘사하는 이미지 영역을 추적해요.
Gaze 헤드를 조작하면 모델이 특정 이미지 영역을 묘사하도록 유도할 수 있으며, 이는 모델의 답변을 제어하는 데 효과적인 방법으로 활용될 수 있어요.
이러한 메커니즘은 다양한 모델 크기 및 아키텍처에서 발견되며, 모델의 행동을 제어하는 실용적인 추론 시간 레버로 활용될 수 있음을 보여줘요.