최근 연구에 따르면 비전-언어 모델은 텍스트 설명에 과도하게 의존하고 시각적 증거를 충분히 활용하지 못하는 '텍스트 단축 학습' 현상이 나타납니다. 연구진은 텍스트와 이미지를 교환하여 모델의 정확도 감소를 측정하는 적대적 평가 프레임워크를 제안하고, 이를 통해 교차 모드 의존도를 정량화했습니다. 최적화된 모델은 평균 정확도 감소를 27.5%에서 9.8%로 줄이며, 기존 모델 대비 64.4%의 상대적 성능 향상을 보였습니다.