연구진은 긴 컨텍스트를 처리하는 비전-언어 모델에서 텍스트와 이미지를 모두 활용하는 검색 헤드(retrieval head)의 작동 방식을 분석했어요. 분석 결과, 전체 헤드 중 4.4~10.2%만이 정보 검색에 핵심적인 역할을 하며, 이 헤드들을 마스킹하면 성능이 크게 저하돼요. 이미지 검색 헤드는 텍스트 검색 헤드보다 더 역동적으로 변하며, 시각적으로 풍부한 문서를 순위화하는 데에도 활용될 수 있어요.