연구진은 크로스 모달 인코더의 취약점을 파악하기 위해 '허브 텍스트' 식별 방법을 제안했어요. MSCOCO 및 nocaps 이미지 캡셔닝 평가, MSCOCO 및 Flickr30k 이미지-텍스트 검색 작업에서 실험을 진행했어요. 단일 허브 텍스트가 많은 이미지에서 인간이 작성한 참조 캡션과 유사한 점수를 달성하며 크로스 모달 인코더의 취약점을 드러냈어요.