연구진은 사전 학습된 시각 모델의 분류 헤드를 의미 프로토타입으로 재활용하는 방법을 제시했어요. 이 방법은 시각과 언어를 정렬하는 데 필요한 페어 데이터 양을 줄여줘요.
가중치를 의미적 앵커로 활용해 제로샷 정렬을 가능하게 하고, 실제 이미지-텍스트 페어와 프로토타입을 혼합하여 데이터 증강 전략으로도 활용돼요.
실험 결과, 이 접근 방식을 최신 시각-언어 정렬 기법과 결합하면 크로스 모달 검색, 제로샷 및 소량 샘플링 분류 작업에서 정확도가 향상됐어요.