연구진은 시각-언어 모델(VLM)이 시각적 증거와 기억된 세계 지식 간의 충돌을 어떻게 해결하는지 분석했어요. 세 가지 VLM 패밀리를 대상으로 활성화 패치, 모델 구성 요소 제거, 메커니즘 분석을 수행했어요.
시각적 근거가 우선시되는 반면, 기존 지식 근거는 네트워크 후반부에 집중된 소수의 핵심 어텐션 헤드에 의존하는 것으로 나타났어요. 이 헤드들은 시각적 입력과 상충하는 경우에도 저장된 세계 지식을 활용해 답변을 생성해요.
이 헤드들을 제거하면 기존 지식 기반 답변 예측이 시각적 기반 답변으로 전환되지만, 시각적 기반 예측에는 거의 영향을 미치지 않아 비대칭적인 인과 구조를 보여줘요.