Pulse · AI 뉴스

Vision-Default, Prior-Override: 시각-언어 모델의 인식-지식 충돌 메커니즘

Vision-Default · 2026-06-27

연구진은 시각-언어 모델(VLM)이 시각적 증거와 기억된 세계 지식 간의 충돌을 어떻게 해결하는지 분석했어요. 세 가지 VLM 패밀리를 대상으로 활성화 패치, 모델 구성 요소 제거, 메커니즘 분석을 수행했어요.

시각적 근거가 우선시되는 반면, 기존 지식 근거는 네트워크 후반부에 집중된 소수의 핵심 어텐션 헤드에 의존하는 것으로 나타났어요. 이 헤드들은 시각적 입력과 상충하는 경우에도 저장된 세계 지식을 활용해 답변을 생성해요.

이 헤드들을 제거하면 기존 지식 기반 답변 예측이 시각적 기반 답변으로 전환되지만, 시각적 기반 예측에는 거의 영향을 미치지 않아 비대칭적인 인과 구조를 보여줘요.

##VLM##인공지능##시각언어모델

매일 핵심 AI 소식을 한국어로, 빠르게